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Uber dieses Buch 

Die Konzeption dieses Buches ist durch 
zwei Merkmale gepragt, die es von den 
meisten vergleiehharen Texten unterschei- 
det: Erstens, es macht SchluB mit der 
kiinstlichen Alternative zwischen soge- 
nannter klassischer und probabilistischer 
Testtheorie, indem es beide Ansatze als 
komplementare, nicht als konkurrierende 
Theorien behandelt (S.U. den Abschnitt 
iiber klassische Testtheorie). Zweitens, 
werden nicht nur Methoden behandelt, die 
Personeneigenschaften mittels Tests quan- 
tifizieren, sondern auch solche, die Per- 
sonen anhand von Testergebnissen klas- 
sifizieren, also qualitative Personenun- 
terschiede erfassen (S.U. den Abschnitt 
iiber klassifizierende Testtheorie). Beide 
Merkmale sind nicht unproblematisch, 
denn mehr als 95 % aller standardisierten 
Test- und Fragebogeninstrumente sind 
nach der klassischen Testtheorie ent- 
wickelt worden, und ein ebenso groBer 
Anteil von Test- und Fragebogenverfahren 
zielt darauf ab, quantitative Personen- 
merkmale zu erheben. 

Schaut man sich dagegen an, was auf dem 
Gebiet der Psychometrie und Testtheorie 
derzeit an Methoden entwickelt und pu- 
bliziert wird, so scheint dieses Unterfan- 
gen weniger gewagt: Arbeiten zur proba- 
bilistischen Testtheorie dominieren die 
Szene ebenso, wie es auch immer mehr 
psychometrische Arbeiten gibt, die quali- 
tativen Unterschieden zwischen den gete- 
steten Personen Rechnung tragen. Dabei 
ist die Gesamtheit der Neuentwicklungen 
in den letzten dreiBig Jahren durchaus 
nicht divergent oder zersplittert, sondern 
sie stellt ein - zwar mosaikartig zusam- 
mengefiigtes - aber letztlich einheitliches 
und konsistentes Gebaude psychometri- 



scher Verfahrcn dar. Es ist das Anliegen 
dieses Buches, einen Einblick in dieses 
Gebaude zu vermitteln und dem Feser die 
damit verbundenen vielfaltigen Moglich- 
keiten psychometrischer Methoden zu 
erschlieBen. 

Wie in alien Bereichen der universitaren 
Ausbildung diirfen sich auch die Inhalte 
der Testtheorie nicht daran orientieren, 
was derzeit der Standard der Testpraxis 
ist, sondern daran, welche Moglichkeiten 
fur die Praxis der derzeitige Forschungs- 
stand bietet. Das Potential der Testtheorie 
fur eine Verbesserung der Testpraxis ist 
enorm groB, jedoch ist die Nutzung dieses 
Potentials an eine wesentliche Vorausset- 
zung gekniipft: Neue Verfahrcn miissen 
anwendbar sein, d.h., es muB benutzer- 
freundliche Computerprogramme geben. 
So werden in diesem Buch auch nur sol- 
che Verfahren und Methoden vorgestellt, 
fur die entsprechende Software angeboten 
wird. Fiir die wichtigsten in diesem Buch 
dargestellten Verfahrcn der Testanalyse 
steht ein Programmsystem zur Verfugung 
(WINMIRA), das in einer Ubungs-Ver- 
sion kostenlos vom Programmautor ange- 
fordert werden kann (siehe den Anforde- 
rungsschein auf der letzten Seite des Bu- 
ches). Mit dieser Demoversion konnen 
fast alle im Text verwendeten Rechenbei- 
spiele nachgerechnet werden. Fiir alle 
anderen, nicht durch WINMIRA abge- 
deckten A u s we rt u n gs ver fa h re n , wird auf 
entsprechende, allgemein zugangliche 
Software verwiesen. 

Das Buch versteht sich nicht als Aufbau- 
kurs fiir Studierende, die ‘noch etwas 
mein - ' lernen mochten, sondern als Basisli- 
teratur fiir alle Studiengange der Psycho- 
logic, Soziologie und Padagogik, in denen 
Kenntnisse der Test- und Fragebogenkon- 
struktion und -analyse zur Grundausbil- 
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dung gehoren. Deshalb werden auch keine 
besonderen Kenntnisse der Wahrschein- 
lichkeitsrechnung und Statistik vorausge- 
setzt, sondem es werden alle benotigten 
Begriffe bei ihrem ersten Auftauchen im 
Text erlautert. 

Klassische Testtheorie 

Jedes Auswertungsverfahren beruht auf 
bestimmten Annahmen uber die empiri- 
schen Daten und macht sich die - behaup- 
tete oder nachgewiesene - Geltung dieser 
Annahmen zunutze, um einzelne Auswer- 
tungsschritte zu rechtfertigen oder zu be- 
griinden. Die Annahmen der sogenannten 
klassischen Testtheorie beziehen sich auf 
vorliegende, fehlerbehaftete Mefiwerte von 
Personen. Diese Annahmen bestehen aus 
bestimmten Aussagen iiber den MeBfehler 
dieser MeBwerte, z.B. iiber seine GroBe 
oder dariiber, daB er nicht mit dem MeB- 
fehler anderer MeBwerte korreliert. Die 
Existenz von MeBwerten, wenn auch feh- 
lerbehafteter, wird aber vorausgesetzt. 

Anders verhalt es sich mit der sogenann- 
ten probabilistischen Testtheorie, deren 
Annahmen sich darauf beziehen, wie die 
beobachteten Antworten in einem Test 
von der zu messenden Eigenschaft abhan- 
gen. Die Berechnung von MeBwerten fiir 
die Personen ist hier erst das Ergebnis 
einer Testanalyse und nicht ill re Voraus- 
setzung. Insofem erganzen sich die klassi- 
sche und die probabilistische Testtheorie: 
die eine fangt dort an (die klassische 
Testtheorie), wo die andere aufhort (die 
probabilistische Testtheorie), namlich bei 
den MeBwerten. 

Beide Begriffe sind zudern hochst irrefiih- 
rend: die klassische Testtheorie ist eben- 
sowenig eine Theorie iiber Tests, wie die 



probabilistische Testtheorie unbedingt 
probabilistisch sein muB. Erstere wird in 
diesem Buch daher als allgemeine Mefi- 
fehlertheorie bezeichnet und letztere 
untergliedert sich in eine Vielzahl von 
Testmodellen - probabilistische und de- 
terministische. Die Behandlung dieser 
Testmodelle ninmit zweifelsohne den gro- 
Beren Raurn in diesem Buch ein - weil es 
so viele interessante und brauchbare 
Testmodelle gibt und weil in ihnen die 
psychologischen Annahmen iiber das Ver- 
halten der Personen bei der Beantwortung 
der Testaufgaben stecken. 

Dennoch wird auch die klassische Test- 
theorie (die MeBfehlertheorie) in diesem 
Buch recht ausfiihrlich behandelt, aller- 
dings verteilt auf mehrere Kapitel. Im Ab- 
schnitt 'Lesehinweise' wird ein Lesevor- 
schlag gemacht, der einem Kurs in klassi- 
scher Testtheorie gleichkonmit: von den 
Testgiitekriterien iiber die Axiome der 
klassischen Testtheorie, die Berechnung 
der Objektivitat, Reliabilitat und Validitat, 
die Bestimmung von Vertrauensinterval- 
len, Reliabilitatssteigerung durch Testver- 
langerung, Verdiinnungsformeln, Relia- 
bilitats- V aliditats-Dilemma, normorien- 

tierte Testauswertung bis hin zu den klas- 
sischen Problemen der Verandemngsmes- 
sung. 

K I assif izi erende Testtheorie 

Jede Art der Testauswertung basiert auf 
einer Annahme iiber die Art der Perso- 
nenunterschiede, die der Test oder Frage- 
bogen erfassen soli. Zumeist erfaBt ein 
Test quantitative Personenunterschiede, 
d.h. er soil den Auspragungsgrad der In- 
telligenz, der Extraversion oder der Ein- 
stellung zum Umweltschutz ermitteln, also 
quantifizieren. Das Gegenstiick hierzu 




besteht darin, qualitative Personenunter- 
schiede zu erfassen, also z.B. Attributi- 
onsstile, Coping-Stile, kognitive Stile oder 
Strategien, Einstellungsstrukturen, gene- 
ralisierte Kognitionen oder personlich- 
keitspsychologische Typenkonstrukte. 

Die Erfassung qualitativer Personenunter- 
schiede komnit dabei einer Klassifizierung 
der Person gleich, da man iiber Personen, 
die sich qualitativ voneinander unterschei- 
den, nur sagen kann, dab sie unterschiedli- 
chen Gruppen, Typen, Kategorien oder 
eben ‘Klassen’ angehoren. Der Begriff 
'klassifizierende' Testtheorie wird hier be- 
vorzugt, um die Diskussion um ‘qua- 
litative Methoden’ zu entlasten. 

Wahrend es in der inhaltlichen Theorien- 
bildung eine Vielzahl solcher Konstrukte 
gibt, mit denen qualitative Personenunter- 
schiede besehrieben werden, wird bei ihrer 
Erfassung durch einen Test oder Fragebo- 
gen in der Regel dann doch quantifiziert. 
Wann immer man einen Summenwert iiber 
die Items eines Tests bildet, also etwa die 
mit ‘ja’ beantworteten Fragen zusammen- 
zahlt, hat man die Schwelle zur Quantifi- 
ziemng unwiederbringlich uberschritten: 
Ein Sunmienwert enthalt nicht mein - die 
Information, welche Person welches Item 
bejaht hat, sondern nur den quantitativen 
Aspekt, wieviele Fragen bejaht wurden. 
Eine qualitative oder klassifizierende 
Testtheorie beriicksichtigt dagegen, wel- 
che Fragen mit ‘ja’ und welche mit ‘nein’ 
beantwortet wurden, also das Antwortmu- 
ster. 

Es stellt keine bose Unterstellung gegen- 
iiber Testkonstrukteuren dar, wenn man 
sagt, dab deswegen immer wieder auf eine 
quantifizierende Testauswertung zuriick- 
gegriffen wird, weil keine Alternativen 
bekannt sind: Es gab diese Alternativen 



einer qualitativen Testtheorie bislang nicht 
und sie sind auch bis heute nicht so ausge- 
reift wie quantitative Auswertungsverfah- 
ren. Trotzdem werden klassifizierende 
Testmodelle in diesem Buch gleichbe- 
rechtigt neben quantifizierenden Modellen 
behandelt. 

Der Hauptgrund fiir diese Gleichbehand- 
lung liegt in der Uberzeugung, dab es der 
Testpraxis nur gut tut und berechtigte Kri- 
tik an der Testpraxis entkraftet, wenn man 
qualitative Personenunterschiede auch als 
solche erfabt und nicht stets und uberall 
quantifiziert. Aber es gibt noch weitere 
Grunde. Gerade wenn man eine quantita- 
tive Personenvariable messen will, konnen 
klassifizierende Testmodelle dabei helfen. 
Zum einen labt sich durch einen Vergleich 
eines quantitativen und eines klassifizie- 
renden Modells priifen, ob die Personen- 
unterschiede tatsachlich quantitativer Na- 
tur sind. Zum anderen konnen sie bei der 
Testoptimiemng durch Selektion von Per- 
sonen oder Items herangezogen werden, 
um einen quantitativen Test zu verbessem. 
Schlieblich stellen sie einfach einen 
brauchbaren Ausweg dar, wenn es nicht 
gelingt, einen quantifizierenden Test zu 
konstruieren: Anstatt den Test als un- 
brauchbar aufzugeben, kann er unter Um- 
standen mit einem klassifizierenden Test- 
modell ausgewertet werden. 

In ein ‘Lehrbuch' gehoren klassifizierende 
Testmodelle allein schon aus didaktischen 
Griinden: Die Beschaftigung mit ihnen 
fordert das Verstandnis dafiir, was es 
heibt, wenn man mit einem Test oder Fra- 
gebogen eine Personeneigenschaft quanti- 
fizieren mochte. 
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Zur Didaktik des Buches 

Eines der hilfreichsten Merkmale der 
Testtheorie ist zugleich ihr problema- 
tischstes Merkmal: Hier werden psycho- 
logische Annahmen uber das Verhalten 
von Menschen, namlich iiber ihr Antwort- 
verhalten, in Formeln verpackt. Tatsach- 
lich sind die meisten, in diesern Buch ab- 
gedruckten Formeln so etwas wie 
‘Verhaltensgleichungen’: Sie beschreiben 
die Abhangigkeit des beobaehtbaren Ver- 
haltens von Personen- und Situations- 
merkmalen. Dies ist selir hilfreich, denn es 
full rt zu eindeutigen Auswertungsverfah- 
ren und sichert ein wichtiges Giitemerk- 
mal von Tests, ihre Objektivitat. Es ist 
aber deshalb problematisch, weil sich 
viele Studierende von Fomieln derart ab- 
schrecken lassen, daB sie die Psychologie 
dahinter nicht mehr sehen. Auch wenn die 
formalisierten Annahmen oft nicht beson- 
ders tiefschiirfend sind, ist es umso wich- 
tiger, sie zu erkennen und zu durch- 
schauen. 

Es gibt (mindestens) vier verschiedene 
Modi der Wissensvermittlung in einem 
solchen Gebiet wie der Testtheorie: den 
verbalen, den graphischen, den numeri- 
schen und den fomialen Modus. Beson- 
ders im zentralen, dritten Kapitel wurde 
versucht, alle 4 Modi zur Darstellung 
eines Testmodells einzusetzen: Seine An- 
nahmen und Eigenschaften werden verbal 
beschrieben, der Zusammenhang zwischen 
der zu messenden Personeneigenschaft 
und dem Antwortverhalten wird durch 
Graphiken dargestellt, es werden Zahlen- 
beispiele vorgefiihrt und - so spat wie 
moglich in jedem Unterkapitel - wird die 
Formalisierung eingefiihrt. Was mit diesen 
4 Darstellungsmodi vemiittelt wird, ist 
weitgehend redundant, so daB es dem 
Verstandnis vieler Kapitel keinen ent- 



scheidenden Abbruch tut, wenn man z.B. 
mit den Formeln nicht klar kommt. 

Trotzdem wurde einiges unternommen, 
um auch die Formalisierung der Testtheo- 
rie verstandlich zu machen. Alle Funkti- 
onszeichen, mathematischen Symbole und 
Rechenregeln, die iiber das Abiturwissen 
im Fach Mathematik hinausgehen, werden 
bei ihrem ersten Auftreten erlautert. Uber 
die verwendete Notation gibt eine aus- 
fulnl iche Tabelle am Ende des Buches 
Auskunft. Statistische Konzepte wie 
‘Vaiianz’ und ‘Korrelation’ werden eben- 
falls bei ihrem ersten Auftreten erlautert, 
die entsprechende Seitenzahl laBt sich 
iiber das Stichwortverzeichnis jederzeit 
wiederfinden. 

Fangere Ableitungen und Beweise werden 
aus dem laufenden Text herausgenommen, 
um den ungeiibten Feser nicht zu irritie- 
ren. Solche Ableitungen finden sich in 
abgesetzten Kastchen wieder. Obwohl es 
empfehlenswert ist, diese Ableitungen 
nachzuvollziehen, ist es fur das weitere 
Verstandnis des Textes nicht erforderlich. 
Oft dienen die ebenfalls in abgesetzten 
Kastchen wiedergegebenen Datenbeispiele 
allein dazu, die Bedeutung der in den 
Formeln auftauchenden Modellparameter 
plastischer zu machen. 

SchlieBlich werden in den Ubungsaufga- 
ben keine Beweisfiihrungen verlangt, son- 
dern es handelt sich um Anwendungsauf- 
gaben, Kreativleistungen oder Abfragen 
mit leichter Transferanforderung. Kieler 
Studierende des Wintersemesters 94/95 
baten mich, ausdriicklich darauf hinzuwei- 
sen, daB es bei vielen Aufgaben nicht 
zielfiihrend ist, die entsprechenden For- 
meln zu suchen, um die Antwort zu be- 
rechnen. Die Fosung ist oft leichter durch 
logische Schliisse zu finden. 
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Ein heikles Kapitel stellt das Thema Lite- 
raturverweise dar. Es niitzt den Studieren- 
den wenig, wenn sie im laufenden Text 
erfahren, daB Mayer (1974) oder Schulze 
(1975) auch zu diesem Thema etwas ge- 
sehriehen haben, was man eigentlich lesen 
sollte, aber nie lesen wird. Fur mich war 
es eine notwendige Konsequenz, auf sol- 
che Verweise beim Schreiben ganz zu 
verzichten. Es beeinfluBt namlich den 
Schreibstil sehr, wenn man stets die Ver- 
antwortung fur das Geschriebene anderen 
Autoren zusehrciben darf oder muB. 

Die notwendigen Referenzen auf die je- 
weiligen Originalarbeiten oder andere le- 
senswerte Texte erfolgt am Ende jedes 
Unterkapitels in Literatur-Kastchen. Aber 
auch hier stellt sich ein Problem, namlich 
das der ungeheuren Fiille testtheoretischer 
Arbeiten. Es kann nicht die Aufgabe eines 
Lehrbuchs sein, ganze Jahrgange von ein- 
schlagigen Fachzeitschriften zu zitieren. 
Einige Kritericn fur die sicherlich subjek- 
tive Auswahl an Literatur sind: 

- historisch bedeutsame Arbeiten, in 

denen ein Ansatz erstmals ausfuhrlich 
behandelt wurde, 

- Arbeiten. die von ihrem Inhalt und Stil 
her geeignet sind, von den Adressaten 
dieses Buches, also Studierenden der 
Facher Psychologie, Padagogik und 
Soziologie gewinnbringend als Teil 
ill res Studiums gelesen zu werden, 

- Arbeiten, die dieselben Inhalte anders 

darstellen, also als Konkurrenz oder 
Alternative zu diesem Lehrbuch fun- 
gieren konnen. 
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Lesehinweise 

Die Untergliederung des Buches in 6 
Kapitel stellt insofern eine chronologische 
Gliederung dar als die Kapitel den Ablauf 
einer Testentwicklung widerspiegeln: 
Nach der Testkonstruktion (Kapitel 2) 
folgt die Auswahl und Anwendung eines 
geeigneten Testmodells (Kapitel 3). Zu- 
nachst miissen die Parameter dieses Test- 
modells geschatzt werden (Kapitel 4), 
welche dann die Grundlage fur Modellgel- 
tungskontrollen darstcllcn (Kapitel 5). Der 
letzte und vielleicht wichtigste Schritt 
einer Testentwicklung besteht in der Op- 
timierung des Tests oder Fragebogens 
hinsichtlich MeBgenauigkeit und Giiltig- 
keit (Kapitel 6). Wissenschaftstheoretische 
Uberlegungen sollten stets am Anfang 
stehen und werden in Kapitel 1 behandelt. 

Dieses Gliederungsprinzip muB unter di- 
daktischen Gesichtspunkten nicht das 
sinnvollste sein, denn oft versteht man die 
ersten Schritte besser, wenn man schon 
weiB, welche Schritte noch folgen. Insbe- 
sondere ist es wohl nicht sinnvoll, das 
ganze Buch von vome bis hinten durchzu- 
lesen, und geradezu fatal ware es, nur die 
erste Halfte durchzuarbeiten und auf die 
zweite Halfte aus Zeitgriinden zu verzich- 
ten. Aus diesem Grand werden im folgen- 
den 5 Lesevorschlage gemacht, die sich 
sowohl zur Strakturierung von Lehrver- 
anstaltungen als auch zum Selbststudium 
eignen. 



Der Standardkurs 

Entweder als 2-stdg. Vorlesung mit Tuto- 
rium zur Besprechung der Ubungsaufga- 
ben oder als Lektiirekurs in Foim eines 2- 
stdg. Seminars. Die zweite Variante stellt 
rohe Anforderungen an die Studierenden 
da der Stoff nur zu bewaltigen ist, wenn 
alle Teilnehmerlnnen die angegebenen Ka- 
pitel vor der jeweiligen Seminarstunde 
gelesen haben. Gegebenenfalls ist der 
Stoff auf 2 Semester zu verteilen. 

1. Wissenschaftstheorie der Testaus- 
wertung und Testgiitekriterien (1, 2.1) 

2. Testkonstruktion (2.2 - 2.5) 

3. Das Antwortverhalten bei richtig- 

falsch Antworten (3 - 3.1. 1.2.1) 

4. Logistische Antwortfunktionen 
(3.1. 1.2.2-3.1. 1.2.4) 

5. Die Berechnung quantitativer MeB- 

werte (4.1, 4.2.1) 

6. Die Priifung der Modellannahmen 

(5.3) 

7. Klassifizierende Testauswertung 
(3.1.2) 

8. Gleichzeitig Klassifizieren und 
Quantifizieren (3.1.3) 

9. Die Identifizierung von latenten 

Klassen (4.2.2) 

10. Metrische Skalen aus ordinalen Ant- 
worten (3.3.1, 3.3.2) 

11. Klassifizieren mit ordinalen Ant- 
worten (3.3.3 - 3.3.5) 

12. Die Angemessenheit der Testaus- 
wertung (5.1, 5.2) 

13. Erhohung der MeBgenauigkeit (4.4, 

6 . 1 ) 

14. Testoptimierang durch Item- und 
Personenselektion (6.2, 6.3) 

15. Externe Validitat und Normierung 
(6.4, 6.5) 





15 



Ein Aufbaukurs 

Dieser Vorschlag fur ein zweistiindiges 
Fortgeschrittenenseminar setzt den Stan- 
dardkurs voraus. Der Lesestoff dieses Bu- 
ches pro Thema ist im Umfang gering: 
aber inhaltlich komprimiert und sollte 
durch eine oder zwei der dort angegebenen 
Literaturstellen erganzt werden. 

1. Nichtmonotone Itemfunktionen 

(3.1.1.3) 

2. Latente Klassenanalyse nominaler 
Daten (3.2.1) 

3. Das mehrdimensionale Rasch-Modell 

(3.2.2) 

4. Das lineai' logistische Testmodell 

(3.4.1) 

5. Das mehrdimensionale Komponen- 
tenmodell (3.4.2) 

6. Die lineai' logistische Klassenanalyse 

(3.4.1) 

7. Klassische Probleme der Verande- 
rungsmessung (3.5.1) 

8. Dreifaktorielle Testmodelle (3.5.2) 

9. Personenspezifisches Lernen wahrend 
des Tests (3.5.3. 1) 

10. Itemspezifisches Lemen wahrend des 
Tests (3.5. 3.2) 

11. Reaktionskontingentes Lemen 

(3. 5. 3. 3) 

12. Die Messung von Wirksamkeit 
(3.5.4) 



Klassische Testtheorie 

Die folgende Auflistung von Themen und 
Kapitelnummem gibt eine Ubersicht, wel- 
che Inhalte der klassischen Testtheorie in 
diesem Buch behandelt werden. Da die 
klassische Testtheorie in diesem Buch je- 
doch nicht als eigenstandige Grundlage fiir 
eine Testauswertung, sondern als MeBfeh- 
lertheorie behandelt wird, stellt die Anein- 
anden'eihung dieser Themen nicht unbe- 
dingt einen didaktisch sinnvollen Kurs in 
klassischer Testtheorie dar. Ein wichtiges 
Tliema, namlich die Methoden der Re- 
liabilitatsberechnung im Rahmen der 
klassischen Testtheorie, wird nur gestreift, 
da die Bestimmung der Reliabilitat eines 
Tests im Rahmen probabilistischer Test- 
modelle iiber die Schatzfehlervarianzen 
vgl. Kap. 6.1.1) sehr viel effektiver und 
praziser erfolgen kann. 

1. Testgiitekriterien und Axiome der 
MeBfehlertheorie (1.1, 2.1) 

2. Testkonstruktion (2.2, 2.3) 

3. Berechnung der Auswertungsobjek- 
tivitat (2.4, 2.5) 

4. Die Testmodelle der klassischen 

Testtheorie (3.1. 1.2.1) 

5. Reliabilitatssteigerung durch Testver- 
langerung und Vertrauensintervalle 
(6.1.1, 6.1.2, 6.1.3) 

6. Trennscharfe und Faktorenanalyse als 
Testmodell (6.2.1, 6.2.3) 

7. Validitat, Verdunnungsformeln und 
Reliabilitats-Validitats-Dilemma 
(6.4) 

8. Noimorientierte und kriteriumsorien- 
tierte Testinterpretation (6.5) 

9. Klassische Probleme der Verande- 
rungsmessung (3.5.1) 

10. Ipsative MeBwerte (3.2.2) 
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Rasch-MeBtheorie 

Dieser Kurs richtet sich an Studierende. 
die schon an einer Lehrveranstaltung iiber 
restkonstruktion und die sog. klassische 
Testtheorie teilgenommen haben und jetzt 
einen Einblick in die Rasch-MeBtheorie 
erhalten mochten. Die angegebenen The- 
men und Kapitel eignen sich gut fur ein 2- 
stiindiges Seminar. 

1. Formale Modelle und Testmodelle 

( 1 . 2 ) 

2. Das Binomialmodell (Einl. v. 3, 3.1, 

3.1.1, 3.1. 1.2.1) 

3. Das Rasch-Modell (3.1. 1.2.2) 

4. Parameterschatzung (4.1, 4.2.1) 

5. Eindeutigkeit und MeBgenauigkeit 
der Parameterschatzungen (4.3, 4.4, 
6 . 1 . 1 ) 

6. Das mixed Rasch-Modell (3.1.3) 

7. Modellgeltungstests (5.3) 

8. Modellvergleiche (5.1, 5.2) 

9. Item-fit MaBe (6.2.1) 

10. Unskalierbare Personen (6.3) 

11. Das mehrdimensionale Rasch-Modell 
(3.2.2) 

12. Das ordinale Rasch-Modell (3.3.1) 

13. Ratingskalen Modelle und ordinale 
mixed Rasch-Modelle (3.3.2, 3.3.5) 

14. Linear-logistische Testmodelle 
(3.4.1, 3.4.2) 

15. Die Messung von Wirksamkeit 

(3.5.4) 



Klassifizierende Testtheorie 

Dieser Kurs richtet sich an alle Studieren- 
den, fur die ‘Testauswertung’ bisher 
gleichbedeutend war mit ‘Quantifizierung’ 
von Personeneigenschaften. Er soil einen 
Einblick in die Moglichkeiten eroffnen, 
Tests unter Beriicksichtigung des Ant- 
wortmusters oder Antwortprofils auszu- 
werten. Er eignet sich ebenfalls fur ein 2- 
stiindiges Seminar, wobei - je nach Vor- 
kenntnissen - des ofteren auf andere Kapi- 
tel zuriickgegriffen werden muB. 

1. Quantitative und kategoriale Perso- 
nenvariablen (2.2.1, Einl. v. 3, 3.1, 
3.1.1, Kap. 3. 1.1.1) 

2. Deterministische und probabilistische 
Klassen (Einl. 3.1.2, 3. 1.2.1, 3. 1.2.2) 

3. Die Identifiziemng der Klassen (4.1, 
4.2.2) 

4. Restringierte Parameter (3. 1.2.3, 

3. 1.2.4)" 

5. Das mixed Rasch-Modell (3.1.3) 

6. Modellgeltungstests (5.1, 5.2) 

7. Klassenanalyse nominaler Daten 

(3.2.1) 

8. Ordinales Rasch-Modell und ordinale 
Klassenanalyse (3.3.1, 3.3.3) 

9. Ratingskalen-Modelle (3.3.2, 3.3.4) 

10. Ordinales mixed Rasch-Modell 
(3.3.5) 

11. Linear-logistische Klassenanalyse 
(3.4.3) 

12. Genauigkeit der Parameterschatzun- 
gen (4.3, 4.4) 

13. Itemselektion (6.1.4, 6.2.2) 

14. Klassen unskalierbarer Personen 

(6.3.2) 

15. Validitatsberechnung und normori- 
entierte Interpretation (6.4.1, 6.5) 






1.1 Der Gegenstand der Teststheorie 
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1. W as ist T esttheorie? 

In diesem Kapitel soil beschrieben wer- 
den, was Tests sind, was Testtheorie ist 
(Kap. 1.1), wozu man sie braucht und 
inwiefem es sich bei der Testtheorie um 
eine wissenschaftliche Teildisziplin der 
Psychologie handelt (Kap. 1.2). Dabei 
wird deutlich, dab das wissenschaftstheo- 
retische Gmndverstandnis identisch ist mit 
dem der gesamten empirischen Psycho- 
logie. 

1.1 Der Gegenstand der 
T esttheorie 

In der sozialwissenschaftlichen Methoden- 
lehre gibt es zwei Begrijfe von Testtheorie. 
Der eine bezeichnet die Theorie iiber sta- 
tistische Schliisse, also Schliisse, die man 
aufgrund von Stichprobendaten beziiglich 
bestimmter Eigenschaften der Population 
zieht. Man nennt soldi einen statistischen 
SchluB einen Test, weil man damit eine 
Hypothese testet, d.h. sie einer Priifung 
unterzieht. Dieser Begriff von Testtheorie 
ist nicht Gegenstand dieses Buches, auch 
wenn in vielen Kapiteln von derartigen 
‘statistischen Tests’ die Rede sein wird. 

Der gelaufigere Begriff, der auch hier 
gemeint ist, bezeichnet dagegen die Theo- 
rie iiber ‘psychologische Tests’, also Ver- 
fahren zur Erfassung psychischer Eigen- 
schaften oder Merkmale von Personen. 
Solche Tests konnen sehr unterschiedlich 
aussehen: Unter Tests im weiteren Sinne 
kann man auch Fragebogen, standardi- 
sierte Interviews und standardisierte Be- 
obachtungen verstehen, Tests im engeren 
Sinne sind nur solche Verfaln'en, die die 
getestete Person nicht willentlich in eine 
gewiinschte Richtung verfalschen kann. 



Der Gegenstand der Testtheorie sind Tests 
im weiteren Sinne, also auch Daten von 
Fragebogen, Beobachtungen und Inter- 
views. 

1.1.1 Was ist ein Test? 

Eine klassische Definition von Tests lau- 
tet: 

‘Ein Test ist ein wissenschaftliches Routi- 
neverfahren zur Untersuchung eines oder 
mehrerer empirisch abgrenzbarer Per- 
sonlichkeitsmerkmale mit dem Ziel einer 
moglichst quantitativen Aussage iiber den 
relativen Grad der individuellen Merk- 
malsausprdgung' , (Lienert, 1969, S. 7). 

Diese Definition ist auch heute noch recht 
brauchbar, auch wenn sie in einem we- 
sentlichen Punkt erweitert werden muB. 
Doch zunachst die Aspekte, die beibehal- 
ten werden sollen: 

- Ein Test ist insofern ein Routineverfah- 
ren als er hinsichtlich seiner Durchfiih- 
rung und Auswertung bereits an einer 
groBeren Stichprobe erprobt und so 
detailliert beschrieben sein muB, daB er 
auch von anderen Personen mit ande- 
ren Testleitern durchgefiihrt werden 
kann. 

- Ein solches Verfahren wird dadurch 

‘wissenschaftlich’ , daB es eine Theorie 
dariiber gibt, unter welchen Bedingun- 
gen aus den Testergebnissen welche 
Aussagen iiber die getesteten Personen 
abgeleitet werden konnen (eben eine 
‘Testtheorie’). 

- Personlichkeitsmerkmale sind insofern 

Gegenstand der Untersuchung, als es 
stets um die Erfassung eines relativ sta- 
bilen und konsistenten Merkmals der 
Personen geht, das fur das im Test ge- 
zeigte Verhalten verantwortlich ist. 
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1. Was ist Testtheorie? 



Zu eng gefaBt ist diese Definition inso- 
fem, als es nicht immer um eine ‘mog- 
lichst quantitative Aussage iiber den 
relativen Grad der individuellen Merk- 
malsauspragung’ gehen mull Vielmehr 
konnen auch qualitative, cl.h. kategoriale 
Aussagen iiber die individuelle Auspra- 
gung eines (nominal skalierten) Merkmals 
Ziel des Testens sein. 

Nicht nur ini Alltagsverstandnis weisen 
die Begriffe ‘Psychologischer Test’ und 
Tsychologisches Experiment’ eine gewisse 
Verwandtschaft auf. Es stellt sich daher 
die Frage, worm sich ein Test von einem 
Experiment unterscheidet, zumal die 
experimentelle Methode in der empi- 
rischen Psychologie eine exponierte Stel- 
lung einninmit. 

Bei naherer Betrachtung stellt sich ein 
psychologischer Test als ein spezieller Fall 
eines Experiments dar. Ein Experiment 
zeichnet sich durch eine bewuBte, vom 
Versuchsleiter durchgefiihrte Variation 
einer Variable aus, der sogenannten unab- 
hangigen Variable. Unter den so herge- 
stellten, verschiedenen Versuchsbedingun- 
gen wird die abhangige Vaiiable beob- 
achtet oder gemessen. Das Ziel eines Ex- 
periments besteht meistens darin, Aus- 
sagen iiber die Wirkungen der unabhan- 
gigen Variable auf die abhangige Vaiiable 
zu machen. 

Bei einem Test besteht die unabhangige 
Vaiiable darin, daB verschiedene Items 
vorgegeben werden. Die unabhangige Va- 
riable hat also so viel Stufen wie der Test 
Items hat. Jede Person wird unter jeder 
Experimentalbedingung, sprich bezuglich 
jedes Items, beobachtet. Die abhangige 
Vaiiable ist die Itemantwort. In Form der 
abhangigen Variablen wird registriert, wie 



die ‘Versuchsperson’ auf die verschiedenen 
Bedingungen (Items) reagiert. 



Was ist ein Item? 

Als Item (das Wort wird ublicherweise 
englisch ausgesprochen und dekliniert) 
bezeichnet man die Bestandteile eines 
Tests, die eine Reaktion oder Antwort her- 
vorrufen sollen, also die Fragen, Auf- 
gaben, Bilder etc. Wenn auch die Items 
von Test zu Test sehr unterschiedlich aus- 
sehen konnen, sind sie innerhalb eines 
Tests sehr ahnlich (homogen), da sie das- 
selbe Merkmal der Personen ansprechen. 



Bei der unabhangigen Vaiiable handelt es 
sich - versuchsplanerisch ausgedruckt - 
um einen MeBwiederholungsfaktor, da 
jede Versuchsperson alle Items beant- 
wortet. Im Gegensatz zu einem ‘nomialen’ 
Experiment ist man bei Tests jedoch we- 
niger an dem Haupteffekt der unabhangi- 
gen Vaiiable ‘Items ’ interessiert, sondem 
an den Unterschieden zwischen den Per- 
sonen hinsichtlich ihrer Reaktionen auf 
alle Items. Auch dies ist im Rahmen ex- 
perimenteller Untersuchungsdesigns vor- 
gesehen, da man die Versuchspersonen als 
zweiten Faktor betrachten kann, und man 
so ein zweifaktorielles Design mit einer 
Beobachtung pro Zelle erhalt: 





Faktor: Item 
12 3 4 5 6 


1 

Faktor: 2 

Person 3 

4 

5 

6 
7 
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Diese Analogic zur experimenteilen Ver- 
suchsplanung lie Be sich weiter ausbauen. 
An dieser Stelle dient sie jedoch nur zur 
Begriindung der folgenden Definition: 

Bei einem Test handelt es sich urn ein spe- 
zielles psychologisches Experiment mit 
clem Ziel, vergleichende Aussagen liber 
die Personen abzuleiten. 

Einen weiteren Nutzen hat diese Einord- 
nung in die Experimentalpsychologie in- 
sofern, als viele Prinzipien der Versuchs- 
planung, Durchfiihrung und Auswertung 
gleichermaBen fiir die Konstruktion, 
Durchfiihrung und Auswertung von Tests 
gelten. Ein bedeutsamer Unterschied be- 
steht allerdings in der Tatsache, daB die 
abhangige Variable bei Tests in der Regel 
kategorial ist, d.h. man registriert, in wel- 
che ‘Kategorie’ die Antwort einer Ver- 
suchsperson auf ein Item fallt. Die 
Bemuntwort als abhangige Variable ist 
also nur nominalskaliert (sofern die ver- 
schiedenen Kategorien qualitativ unter- 
schiedlich sind), oder ordinalskaliert (so- 
fern sie sich quantitativ unterscheiden). 
Somit verbieten sich fiir die Testauswer- 
tung alle Verfahren, die man zur Auswer- 
tung von Experimenten zur Verfiigung 
hat, da diese Intervallskalenniveau der 
abhangigen Variable voraussetzen. 



Variablen und ihr Skalenniveau 

Eine Variable stellt das Gegenstuck zu 
einer Konstanten dar. Mit 'Variable' be- 
zeichnet man eine Eigenschaft, meist von 
Personen, welche in mehreren Aus- 
pragungen vorkommt. Jede Person hat 
dann genau eine Auspragung dieser 
Eigenschaft. Ordnet man den verschie- 
denen Auspragungen der Eigenschaft un- 
terschiedliche Zahlenwerte zu, so erhalt 
man eine numerische Variable. Die Zah- 



lenwerte einer numerischen Variable kon- 
nen jedoch Unterschiedliches bedeuten. 

Ordnet man z.B. der Eigenschaft ‘Haar- 
farbe' die Werte 1 fiir ‘blond', 2 fiir 
‘schwarz’, 3 fiir ‘rot’ usw. zu, so besagt die 
Variablenauspragung ‘2’ lediglich, daB es 
sich urn eine andere Haarfarbe handelt als 
T oder ‘3’. DaB die Zahl 2 groBer ist als 1 
und kleiner als 3, hat keine Bedeutung. 
Man spricht hier von einer kategorialen 
oder nominalen Variable, da ill re Zah- 
lenwerte nur Kategorien bezeichnen und 
nichts anderes als Namen (lat. nomen) fiir 
die Eigenschaftsauspragungen darstellen. 

Ordnet man der Eigenschaft ‘KorpergroBe’ 
die Werte 1 fiir ‘klein’, 2 fiir ‘mittel’ und 3 
fiir ‘groB' zu, so spiegelt die GroBe der 
Zahlen die Rangordnung der Personen 
hinsichthch ihrer KorpergroBe wider. Sol- 
che Vaiiablen heiBen ordinale Variablen, 
weil die Zahlenwerte die Ordnung der Per- 
sonen hinsichthch einer Eigenschaft repra- 
sentieren. Ordinale Variablen lassen sich 
nur fiir quantitative Eigenschaften (wie 
KorpergroBe) konstruieren oder fiir einen 
quantitativen Aspekt einer qualitativen 
Variable (wie die Helligkeit der Haar- 
farbe). 

Haben dariiber hinaus auch die Abstande 
(Intervalle) zwischen den Werten einer 
numerischen Variable eine Bedeutung, 
z.B. wenn man die KorpergroBe in Zenti- 
metern miBt, so spricht man von inter- 
vallskalierten Variablen. 

Diese unterschiedlichen Bedeutungen der 
Zahlenwerte einer Vaiiable bestinmien das 
Skalenniveau der Variable. Von den drei 
genannten stellt die Nominalskala das un- 
terste, die Ordinalskala das mittlere und 
die Intervallskala das hochste Skalenni- 
veau dar. Der Begriff Nominalskala stellt 
jedoch einen Widerspruch in sich dar, 
denn 'Skala' bedeutet soviel wie 'Treppe', 
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wall re nd die Kategorien einer nominalen 
Variable gerade keine Treppenstufen dar- 
stellen. Eine detailliertere Bcselircibung 
der Skalenniveaus oder Skalentypen findet 
sich bei Bortz (1977). 



Aus dieser Charakterisierung eines Tests 
als Experiment folgt auch, dab ein Test 
imnier aus mehreren, d.h. mindestens zwei 
Items bestehen muB, da es sonst keine 
unabhangige Variable gibt, die variiert 
wird. Tatsachlich braucht man fur einen 
Test, der aus einem einzelnen Item be- 
steht, auch keine Testtheorie. 

Es fragt sich allerdings, warum man fur 
Tests iiberhaupt eine Theorie braucht und 
ob es dafiir eine einheithche Theorie ge- 
ben kann. 



Testauswertung, 



beeinfluBt 

A bbi Idung 1: Del' Gegenstandsbereich der Test- 
theorie 

Die Testtheorie beschaftigt sich mit clem 
Zusammenhang von Testverhalten und 
dem zu erfassenden psychischen Merkmcil. 

Aus dieser vorlaufigen Definition wird 
deutlich, dab es sich bei der Testtheorie 
um eine ureigenst psychologische Diszi- 
plin handelt, denn es wird menschliches 
Verhalten mit intrapsychischen Strukturen 
in Verbindung gebracht. 





1.1.2 Warum eine Theorie tiber 
Tests? 

Genauer betrachtet handelt es sich bei der 
Testtheorie nicht um eine Theorie iiber 
Tests, also z.B. iiber verschiedene Alien 
von Tests, iln'en Aufbau und ihre Kon- 
struktionsprinzipien. Vielmehr geht es um 
eine Theorie dariiber, wie das zu erfas- 
sende psychische Merkmal der Personen 
ihr Verhalten im Test beeinflubt, also zum 
Beispiel ilrre Antworten in einem Frage- 
bogen. Eine solche Theorie ist wichtig, 
weil man bei der Auswertung eines Tests 
den umgekehrten Weg geht: man schliebt 
von dem Antwortverhalten im Test auf das 
psychische Merkmal. 

Ein solcher Schlub bedarf aber einer 
Theorie iiber den Zusammenhang von bei- 
dem, dem psychischen Merkmal und dem 
Testverhalten. 



Es wird allerdings auch deutlich, dab man 
immer dann keine Testtheorie braucht, 
wenn das Antwortverhalten in einem Test 
oder Fragebogen selbst dasjenige ist, was 
erfabt werden soil. Das ist z.B. dann der 
Fall, wenn man in einem Fragebogen nach 
der Mitgliedschaft in einer Umweltschutz- 
organisation fragt, man aber an der Tatsa- 
che selbst interessiert ist und sie nicht als 
Indikator fur ein holies Umweltbewubtsein 
nimmt. 

Natiirlich gibt es auch keine einheitliche 
Theorie, die sich auf den Zusammenhang 
von Testverhalten und psychischen Merk- 
malen bezieht. Vielmehr handelt es sich - 
im besten Fall - um eine formale Rahmen- 
theorie, die sich in mehrere formale Mo- 
delle untergliedert, welche wiederum erst 
durch Anwendung auf einen bestinmiten 
Test, eine bestimmte Stichprobe und ein 
bestimmtes psychisches Merkmal zu einer 
Theorie werden. Hierauf wird in Kapitel 
1.2 naher eingegangen 
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Es gibt auch die Auffassung, daB man 
keine Theorie liber den Zusammenhang 
von Antwortverhalten in einem Test und 
dem zu erfassenden psychischen Merkmal 
braucht. Nach dieser Auffassung ist es 
legitim, aus den Antworten in einem Test 
ein MaB fur eine Eigenschaft abzuleiten, 
z.B. die Anzahl der mit ‘ja’ beantworteten 
Fragen. Erst in einem zweiten Schritt ist 
dann die Brauchbarkeit dieses MaBes 
empirisch nachzuweisen. 

Man nennt solch eine Art von Messung 
‘per fiat’ -Messung (fiat = es moge sein! 
(lat.)). Etwas wissenschaftlicher ausge- 
druckt, ist eine solche Messung Bestand- 
teil einer operationalen Definition. 

Eine operationale Definition beschreibt 
eine Variable lediglich dadurch, daB sie 
die Operationen festlegt, mit Hilfe derer 
man sie messen kann. Ein klassisches 
Beispiel fur eine operationale Definition 
ware der Satz: ‘Intelligenz ist das, was der 
Intelligenztest xy miBt.’ Obwohl jede em- 
pirische Uberpriifung einer psychologi- 
schen Theorie erfordert, daB die Variablen 
operationalisiert werden, lauft ein empiri- 
sches Vorgehen, das sich ausschlieBlich 
auf operationale Definitionen stiitzt, Ge- 
falir theorielos zu werden. 

Tm Falle von Testresultaten, die man per 
fiat zu Messungen erklart ohne eine Test- 
theorie heranzuziehen, handelt es sich urn 
ein Stuck vermeidbare ‘Theorielosigkeif . 
Trotzdem ist diese Auffassung selir weit 
verbreitet, und bezeichnenderweise hat 
sogar der ‘grand old man' der US-ameri- 
kanischen Testtheorie, Frederik Lord, 
diese Position am treffendsten ausge- 
druckt: 



und die resultierenden Werte so behandelt 
als hdtten sie Intervalleigenschaften, so 
kann dieses Verfahren einen guten Pradik- 
tor fur ein bestimmtes Kriterium hervor- 
bringen, mufi aber nicht. Im dem Ausmafi, 
in dem diese Skalierungsprozedur einen 
guten empirischen Pradiktor hervorbringt, 
ist auch die postulierte Intervallskala 
gerechtfertigt’ (Lord & Novick 1968, 
S.22, Ubers. d. Verf.). 

Das AusmaB, in dem ein Testergebnis mit 
einem externen Kriterium zusammen- 
hangt, wird externe Validitat genannt. Die 
externe Validitat von MeBwerten als 
Nachweis fur die Richtigkeit des MeB- 
vorganges zu nehmen - wie in diesem 
Zitat ausgedruckt wird - ist jedoch sehr 
problematisch. Das setzt namlich voraus, 
daB bei jeder Neuentwicklung eines Tests 
bereits eine Theorie besteht, mit welchen 
anderen Variablen das Testergebnis zu- 
sammenhangt, und daB diese Variablen 
auch zuverlassig gemessen werden kon- 
nen. 

Der in diesem Buch bescln’ittene Weg, ein 
Testergebnis zu legitimieren, besteht dar- 
in, die Giiltigkeit eines Testmodells fiir 
einen bestimmten Test nachzuweisen. Die- 
se wissenschaftstheoretische Auffassung 
iiber psychologische Tests wird im folgen- 
den Kapitel naher ausgefiihrt. 



‘Wenn man einen Testwert, z-B. durch 
Aufsummierung richtiger Antworten bildet 
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1. Was ist Testtheorie? 



1.2 Die wissenschaftstheo- 
retischen Grundlagen der 
T esttheorie 

Wissenschaftliches Arbeiten zeichnet sich 
dadurch aus, daB das Verhaltnis von 
Theorie und Empirie in nachvollzichbarer 
Weise offengelegt wird. Eine Aussage wie 
z.B. ‘Person a ist intelligenter als Person b’ 
ist dann wissenschaftlich, wenn ich an- 
geben kann, aufgrund welcher theoreti- 
schen Annahmen und aufgrund welcher 
Beobachtungen ich diese Aussage fur 
wain - halte. Wohlgemerkt zeichnen sich 
wissenschaftliche Aussagen nicht dadurch 
aus, daB man sie beweisen kann oder ilnen 
Wahrheitsgehalt objektiv nachweisen 
kann. Dies ware ein positivistischer Wis- 
senschaftsbegriff, der nach den radikalen 
philosophischen Arbeiten von Sir Karl 
Popper nicht mein Grundlage der empiri- 
schen Wissenschaften sein kann. 

Vielmehr entwerfen sich Wissenschaftler 
rnit Theorien Abbilder der Welt (oder von 
Teilen der Welt), die mit moglichst vielen 
Beobachtungen in Einklang stehen oder 
zumindest nicht von diesen widerlegt wer- 
den sollten. 

Theorien sind der Intention nach Abbilder 
der Welt, die man immer wieder daraufhin 
priift, ob sie diese Abbildungsfunktion 
auch erfiillen. Wie dies geschieht, ist sehr 
schwer zu sagen, und wissenschaftliche 
Disziplinen wie auch einzelne For- 
schungsrichtungen innerhalb derselben 
Disziplin unterscheiden sich in der Art der 
Theorienpriifung sehr. Dieser Frage 
kommt auch in diesem Buch ein groBer 
Stellenwert zu; speziell geht Kapitel 5 auf 
entsprechende Methoden ein. 



1.2.1 Was sind Theorien? 

Eine Theorie ist zunachst einmal nichts 
anderes als eine Menge von Aussagen, 
wobei eine Aussage ein sprachliches Ge- 
bilde ist, das wahr oder falsch sein kann. 
So gesehen kann die eingangs gemachte 
Aussage 

‘Person a ist intelligenter als Person b’ 

bereits eine Theorie sein, denn eine Menge 
(von Aussagen) kann auch aus nur einem 
Element bestehen. Allerdings muB dieses 
sprachliche Gebilde einen Wahrheitswert 
haben, d.h. es muB moglich sein, den Wert 
‘wain - ' oder ‘falsch' zuzuordnen. Diesen 
Wahrheitswert muB man nicht kennen, er 
muB nur ‘potentiell’ bestimmbar sein. 

An diesem Beispiel erkennt man ein 
Hauptproblem psychologischer Theorien: 
Niemand hatte Probleme, das sprachliche 
Gebilde ‘Person a ist groBer als Person b’ 
als Aussage (mit Wahrheitswert!) anzuer- 
kennen, da jeder Zollstock den Wahr- 
heitswert zutage fordert. Bei ‘intelligenter 
als’ muB man dagegen erst angeben, was 
man unter ‘intelligenter als’ versteht und 
wie man den Wahrheitswert der Aussage 
ermitteln kann. Das ware dann ein Be- 
standteil der Theorie. Genau mit solchen 
Fragen befaBt sich die Testtheorie, und irn 
folgenden ist dargestellt, wie das Problem 
gelost wird. 

Der Wahrheitswert der Beispiel -Aussage 
kann nicht allein damit bestimmt werden, 
daB nur die Personen a und b beobachtet 
werden, und auch nicht damit, daB nur ein 
Indikator fur Intelligenz beobachtet wird. 
Vielmehr wird das Pradikat ‘intelligenter 
als’ dadurch zu einem wissenschaftlichen ’ 
Pradikat gemacht, daB eine Theorie for- 
muliert und uberpriift wird, nach der sich 
Personen tatsachlich entlang eines Konti- 




1.2 Die wissenschaftstheoretischen Grundlagen der Testtheorie 



23 



nuums als ‘intelligenter’ oder ‘weniger 
intelligent’ anordnen lassen. 

Nur wenn sich diese Theorie bestatigen 
laBt, d.h. nach einem vorher festgelegten 
Kriterium in Einklang mit empirischen 
Beobachtungen steht, ist die Aussage 
‘Person a ist intelligenter als Person b’ eine 
wissenschaftliche Aussage. Sie ist das 
auch nur als Bestandteil der jeweiligen 
Theorie liber das Intelligenzkontinuum, 
die man zugrunde gelegt hat. 

Wie sehen Theorien aus, in deren Rahmen 
Aussagen wie ‘a ist intelligenter als b’ 
sinnvoll sind, d.h. einen Wahrheitswert 
erlangen konnen? Wie in jeder psycholo- 
gischen Theorie, die sich mit der Abhan- 
gigkeit der Verhaltens V von der Person P 
und der Situation U (wie Umwelt) nach 
der klassischen Verhaltensgleichung: 



V = P x U 



befaBt, so muB auch in einer solchen 
Theorie festgelegt werden: 

- welche Verhaltensweisen muB man 

- bei welchen Personen 

- in welchen Situationen beobachten. 

Mit diesen drei Bestimmungsstiicken for- 
muliert eine Theorie dann die Abhangig- 
keit des Verhaltens von Eigenschaften der 
Personen und Situationen. Inhaltlich sind 
diese Theorien recht einfach und oft nicht 
sclir spannend, denn sie dienen nur als 
Mittel zum Zweck, namlich deni Zweck, 
Aussagen wie ‘a ist intelligenter als b’ Sinn 
zu verleihen. Andererseits diirfen die 
Theorien nicht zu stark vereinfachen, sonst 
kann man ill re Ubereinstimmung mit der 
Empirie nicht nichr zeigen, und sie sind 
wertlos. 



Hier zwei Beispiele, wie der Zusammen- 
hang von Verhalten, Personeneigenschaf- 
ten und Situationsmerkmalen in der 
Theorie formuliert wird: 



Theorie A: 

Die Situationen sind definiert durch die 
Menge aller verbalen Analogieaufgaben 
des Typs 

‘Vogel’ verhalt sich zu ‘FliigeT 
wie ‘Fisch’ zu *?’ 

Als Verhaltensweisen werden nur unter- 
schieden: ‘sinnvoll erganzt’ und ‘unsinnig 
oder gar nicht erganzt’. Die Theorie soil 
sich auf alle erwachsenen Personen mit 
Deutsch als Muttersprache beziehen. Die 
Theorie besagt, daB die Wahrschein- 
lichkeit einer sinnvollen Erganzung ab- 
hangt von einer quantitativen Eigenschaft 
der Person, die ‘Intelligenz’ genannt wer- 
den soil, und von der jeweiligen ‘Leichtig- 
keit’ der Analogie. 

Theorie B: 

Die Situationen sind durch die Notenbe- 
kanntgabe von Klassenarbeiten und Klau- 
suren in allgemeinbildenden Schulen defi- 
niert. Als Verhaltensweisen werden exter- 
ne und interne Attributionen des jeweili- 
gen Erfolgs oder MiBerfolgs unterschieden 
(Aussagen wie ‘es lag an mir' (= intern) 
oder ‘es war Zufall’ (= extern)). Die Theo- 
rie soli sich auf alle Schiilerinnen und 
Schuler beziehen und besagt, daB es einen 
Typ von Schiilerinnen und Schiilern gibt, 
die Erfolge (gute Noten) extern und MiB- 
erfolge intern attribuieren. 



Mit Theorie A ist beabsichtigt, Aussagen 
wie ‘Person a ist intelligenter als Person b’ 
mit Theorie B Aussagen wie ‘Schiller a hat 
einen negativen AttributionsstiT sinnvoll 
zu machen. 
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Wie laBt sich priifen, ob diese Theorien 
gelten? Man benotigt hierfur ein formates 
Model!, das in Form einer mathematischen 
Gleichung den angenommenen Zusam- 
menhang zwischen der Wahrsehcinliehkeit 
des Auftretens der Verhaltensweisen 
(‘sinnvolle Erganzung’, ‘interne Attribu- 
tion’) und der Personeneigenschaft (Tntel- 
ligenz’, ‘ Attributionsstil’ ) sowie den Situa- 
tionsmerkmalen (‘Leichtigkeit’, ‘Erfolg 
oder MiBerfolg’) beschreibt. Ein formales 
Modell ist notwendig, weil sonst nicht 
iiber die Gultigkeit der Theorie und somit 
die Wissenschaftlichkeit der Aussagen 
entschieden werden kann. 



Empirie 



Theorie 



Population von 
Personen, Menge 
von Situationen, 
Menge von Ver- 
haltensweisen 

ist 

Teil 

von 

Person a und Per- 
son b bearbeiten 
einen Test (z.B. 
Analogieaufgaben, 
Bewertung eigener 
Leistung) 



bildet ab 

< 



bildet ab 

< 



Theorie iiber das 
Antwortverhalten 

~ ~ t Z i ~ e n 
(mit Hilfe eines 
Testmodells) 
ist 
Teil 
von 

vergleichende Aus- 
sage iiber 2 Perso- 
nen (z.B. a ist intel- 
ligenter als b, oder 
Person a hat einen 
negativen, Person b 
einen positiven 
Attributionsstil) 



Ein solches formales Modell hat die all- 
gemeine Form 

P (v pu ) = f(M p ,M u ), 

d.h., die Wahrsehcinliehkeit p eines Ver- 
haltens V pu der Person p in Situation u ist 
eine Funktion f einer Personeneigenschaft 
M p und eines Situationsmerkmals M„ 
Derartige formale Modelle werden Test- 
modelle genannt und stehen irn Zentrum 
der Testtheorie (vgl. Kap. 3.). Abbildung 
2 veranschaulicht den dargestellten Zu- 
sammenhang von Theorie und Empirie. 

Die zentrale Aussage dieser Abbildung 
lautet: ein einzelnes Testergebnis erlangt 
seinen Anspruch auf Wissenschaftlichkeit 
dadurch, daB es Teil einer Theorie iiber 
das Antwortverhalten in diesern Test ist, 
welche empirisch iiberpriift sein muB. Die 
Ubeipriifung der Theorie kann mit Hilfe 
von mathematischen (formalen) Modellen 
erfolgen, die gleichzeitig festlegen, welche 
Aussagen iiber einzelne Personen sinnvoll 
und welche sinnlos sind. 



Abbildung 2: Vereinfachtes Schema des Verhiilt- 
nisses von Theorie und Empirie beim Testen 

1.2.2 Was ist ein formales 
Modell? 

Ein Modell ist dem allgemeinen Sprach- 
verstandnis nach ein reduziertes Abbild 
der Wirklichkeit. Die Wirkliclikeit wird in 
Modellen auf diejenigen Aspekte redu- 
ziert, die gerade von Interesse sind. 



Beispiele von Modellen: 

Auf dem Computer kann man Modelle fur 
bestimmte Ausschnitte der Wirklichkeit 
programmieren. Derartige Modelle nennt 
man Computer-Simulations-Modelle. 
Automodelle irn Spielzeugladen sind oft 
nur Modelle fur das auBere Erschei- 
nungsbild und die Fortbewegungsart, nicht 
aber fur den Antriebsmechanismus. Flier- 
fur gibt es in der Fahrschule andere Mo- 
delle. Wasserkreislaufmodelle fur den 
elektrischen Stromkreis haben fur einige 
zentrale GesetzmaBigkeiten des elek- 
trischen Stroms Abbildungsqualitat, bei 
naherer Betrachtung sind sie jedoch falsch. 
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Ein mathematisches oder formales Modell 
ist eine algebraische Struktur, die zunachst 
auf keinen Inhalt bezogen ist. Man kann 
das formale Modell aber auf einen kon- 
kreten Inhalt anwenden, so dab daraus 
eine Theorie wird. 

Ein formales Modell, das auf einen Inhalt 
angewendet wird, wird zu einer Theorie. 



werden, nur seine Anwendung auf einen 
konkreten Inhalt. 

Um die Geltung dieses Modells fur einen 
Inhalt (ein Merkmal) genau priifen zu 
konnen, mill.) man die Kurve durch eine 
mathematische Gleichung beschreiben. 
Diese Gleichung, die der Mathematiker 
Gauss abgeleitet hat, lautet 



So kann ein Computer-Simulations-Mo- 
dell fur Binnengewasser zu einer Theorie 
iiber den Bodensee werden, wenn man be- 
hauptet, dab es - mit den richtigen Para- 
metern ‘gefiitterf - zu korrekten Aussagen 
iiber den Bodensee fiihrt. 



f(x) 



(x— |i) 2 

— ]=e.~ 2 a 2 
CW 2n 



Sie findet sich unter anderem auf jedem 10 
DM Schein: 



Das Gesagte sei anhand eines einfachen 
formalen Modells erlautert. Die meisten 
biologisch bedingten quantitativen Merk- 
male einer Spezies, wie z.B. Korpergrobe, 
Korpergewicht, mittlere Herzfrequenz etc., 
folgen einer glockenformigen Verteilung 
wie sie in Abbildung 3 dargestellt ist. 



Haul'igkeil vim 
[ndividucn 




Abbildung 3: Die Gauss'sche Glockenkurve oder 
Normalverteilung 

Diese Kurve ist zunachst ein graphisches 
Modell. Es wird zu einer Theorie, wenn 
man fur ein bestimmtes Merkmal behaup- 
tet, dab seine Verteilung diese Form habe. 
Die Theorie kann falsch werden, wenn 
man fur dieses Merkmal eine andere Ver- 
teilungsform beobachtet. Das Modell 
selbst (d.h. die Kurve) kann nicht falsch 




In dieser Gleichung bezeichnet x die 
Merkmalsauspragungen, deren Wahr- 
scheinliclikeitsverteilung (Dichtefunktion) 
f(x) durch eben diese Gleichung definiert 
wird. Die Konstante e = 2.7... ist die Eu- 
lersche Zahl und n = 3.14... die Konstante 
Pi. Es verbleiben zwei unbekannte Gro- 
ben, namlich p (My) und o (Sigma). Sie 
sind die beiden freien Parameter dieses 
Modells. p bezeichnet den Populations- 
mittelwert des Merkmals, also den Abszis- 
senwert des Gipfelpunktes der Kurve. o 
beschreibt die Breite der Glockenkurve, 
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und zwar genau den Abstand der beiden 
Wendepunkte vom Mittelwert. Das ist 
auch in Abbildung 4 eingezeichnet. Die 
Parameter heiBen solange ‘freie’ Parameter, 
wie sie noch nicht durch konkrete 
Zahlenwerte ersetzt worden sind. 

Wendet man das Modell der Glocken- 
kurve oder Nonnalverteilung auf ein kon- 
kretes Merkmal an, so sind zunachst die 
beiden freien Parameter p und o zu be- 
stimmen. Man kann sie nie genau berech- 
nen, da es unbekannte GroBen der Popula- 
tion sind. Man kann sie nur mein - oder 
weniger genau anhand von Stichproben- 
daten schatzen und spricht daher von 
‘Parameterschatzung ’. Wie man die Para- 
meter eines Modells schatzt, ist eine 
Frage, die bei jeder Modellentwicklung 
geklart werden muB. Sie wird in Kapitel 4 
fur die dargestellten Testmodelle behan- 
delt. 

In jedem Fall wird ein Modell erst rnit der 
Schatzung der Modellparameter zu einer 
Theorie fur den betreffenden Inhalt. Diese 
Parameterschatzungen stellen einerseits 
selbst ein Ergebnis dar, denn es ist z.B. 
eine Information zu wissen, daB der Popu- 
lationsmittelwert der KorpergroBe p = 172 
cm und ill re Streuung c = 10.3 cm in dem 
Modell der Glockenkurve betragt (hypo- 
thetische Zahlen). 

Andererseits werden die Parameterschat- 
zungen selbst zu einem Teil der Theorie, 
wenn man mit dem Modell andere Aussa- 
gen ableiten will, z.B. ob die Kieler Psy- 
chologiestudenten im Durchschnitt groBer 
sind als erwachsene Bundesbiirger. Dann 
wird ein Stichprobenmittelwert der Kieler 
Psychologiestudenten mit einem Populati- 
onsmittelwert verglichen, namlich mit 
dem geschatzten Parameter p der Popula- 
tion aller Erwachsenen. Die Theorie kann 



dann behaupten, daB die Kieler Psycholo- 
giestudenten eine Teilmenge dieser Popu- 
lation sind oder gerade nicht. In jedem 
Fall sind die (geschatzten) Populationspa- 
rameter, p und o, Bestandteil der Theorie, 
denn sie definieren die fragliche Popula- 
tion der Erwachsenen. 

Zusammenfassend kann man sagen, daB 
ein formales Modell eine Vorstufe fur eine 
Theorie ist, sozusagen ein ‘Theorie-Ge- 
rippe’. Hinzukommen miissen zwei Dinge, 
namlich ein konkreter Realitatsbereich, 
auf den man das Modell anwendet, und 
die Schdtzungen der freien Mo- 
dellparameter fur diesen Realitatsbereich. 
Gemeinsam mit den Parameterschatzun- 
gen bildet das Modell den Realitatsbereich 
ab, ist also eine Theorie (die naturlich 
auch falsch sein kann). 

Bei naherer Betrachtung stellt jede stati- 
stische Auswertung von empirischen Da- 
ten eine Anwendung eines formalen Mo- 
dells dar. Jedes Auswertungsverfahren 
beruht namlich auf bestimmten Annahmen 
iiber die Daten und somit iiber den unter- 
suchten Realitatsbereich. Die ubliche Prii- 
fung der Voraussetzungen von statisti- 
schen Verfahren entspricht der Priifung 
der Gultigkeit eines formalen Modells. 
Nur wenn dieses Modell paBt (die Voraus- 
setzungen erfullt sind), machen die Er- 
gebnisse einen Sinn. 

Formale Modelle sind also im wahrsten 
Sinne des Wortes uberall in der empiri- 
schen Forschung anzutreffen. Im folgen- 
den soil jedoch nur ein bestimmter Typ 
von formalen Modellen von Interesse sein, 
die ‘Testmodelle’. 
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1.2.3 Was sind Testmodelle? 

Testmodelle sind spezielle formale Mo- 
delle, die durch die Ail der empirischen 
Daten, auf die sie sich anwenden lassen, 
definiert sind. So wie die Gauss’ sche 
Glockenkurve als ‘VerteilungsmodeH’ be- 
zeichnet werden kann, da sie sich nur auf 
Verteilungen eindimensionaler Merkmale 
anwenden laBt, lassen sich auch Testmo- 
delle nur auf Datenstrukturen anwenden, 
wie man sie mit Hilfe von Tests erhalt. 

Diese Datenstruktur zeichnet sich dadurch 
aus, daB eine Menge von Personen auf 
eine Menge von Items geantwortet hat. 
Die Daten lassen sich sornit in einer recht- 
eckigen Personen x Item Matrix darstel- 
len, in deren Zellen die kodierte Itemant- 
wort, also eine Kodezahl fiir das beobach- 
tete Verhalten steht, siehe Abbildung 5. 

Items 

1 k 



1 0 3 4 1 

2 122 

Personen 



N | | 

Abbildung 5: Datenstruktur fiir Testmodelle 

Formale Modelle, die sich auf solche Da- 
ten anwenden lassen, werden in Kapitel 3 
behandelt. Es stellt sich hier jedoch die 
Frage, warum man Testmodelle unab- 
hdngig von einer konkreten inhaltlichen 
Anwendung entwickelt (und in Lehrbii- 
chern behandelt) und wie man - wenn es 
schon verschiedene Testmodelle gibt - ein 
geeignetes Modell fiir einen bestimmten 



Test auswahlt. Beide Fragen liangcn zu- 
sanmien 

Idealerweise sollte man natiirlich fiir jedes 
inhaltliche Problem ein ‘passendes’ Test- 
modell (deduktiv) ableiten. Es ist aber 
leicht einzusehen, daB selir viele psycho- 
metrische Probleme (Psychometric be- 
zeichnet die Messung psychischer Eigen- 
schaften) zu demselben foimalen Modell 
fiihren wiirden, da die Stmktur dessen, 
was mit einem Test erfaBt werden soil, 
ahnlich ist. Aus okonomischen Griinden 
ist es daher selir sinnvoll, verschiedene 
Modelle ‘zur Auswahl’ zu haben. 

Das beantwortet auch die Frage, welches 
Modell man auswahlt: natiirlich dasjenige, 
welches die Annahmen der jeweiligen 
Theorie am besten widerspiegelt und wel- 
ches diejenigen Aspekte der Wirklichkeit 
abzubilden veimag, die mit dem Test er- 
faBt werden sollen. 

Da ein Modell, wie oben ausgefiihrt, im- 
mer eine Reduktion der Wirklichkeit ist, 
ist es wichtig, diese auf die gewiinschten 
Merkmale zu reduzieren. So ware es z.B. 
falsch, mit dem Modell der Glockenkurve 
fiir die Intelligenzverteilung zu arbeiten, 
wenn man nachweisen will, daB die Popu- 
lation der Mathematikstudenten besonders 
viele extrem intelligente Individuen um- 
faBt. Damit wiirde man eine asymmetri- 
sche, ‘nach oben hin’ gestreckte Intelli- 
genzverteilung fiir diese Population an- 
nehmen, die mit dem Modell der Glocken- 
kurve gar - nicht abgebildet werden kann. 

Im Falle von Testmodellen ware es ge- 
nauso unsinnig, ein Modell mit einer 
quantitativen Personenvariable anzuwen- 
den, wenn man qualitative Unterschiede 
zwischen Gmppen von Personen beziig- 
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1. Was ist Testtheorie? 



lich ihres Antwortverhaltens nachweisen 
will. 

Die wissenschaftliche Fundierung von 
Aussagen wie ‘a ist intelligenter als b’ mit 
Hilfe von Theorien liber das Antwort- 
verhalten hat also zwei Seiten von ‘Mo- 
dellgiiltigkeit’: zum einen muB das Modell 
diejenigen Aspekte des Testverhaltens 
korrekt abbilden konnen, die fiir die spate- 
re Interpretation wichtig sind; zum ande- 
ren muB das Modell auch auf die Daten 
passen. Beides kann durchaus zueinander 
im Widerspruch stehen, d.h. es kann ein 
Modell passen, das die gewiinschten 
Aussagen gar nicht abzuleiten gestattet. 
Insofem kann sich eine richtig verstandene 
Testtheorie als groBter Kritiker der Test- 
praxis erweisen. 

1.2.4 Was erklaren Theorien 
iiber das Testverhalten? 

Tlieorien sollen dem allgemeinen Sprach- 
verstandnis nach etwas erklaren und nicht 
bloB beschreiben. Tatsachlich ist die Un- 
terscheidung von ‘Erklaren’ und ‘Be- 
schreiben’ wissenschaftstheoretisch sehr 
schwer zu fassen. Dennoch fallt auf, daB 
in der bisherigen Darstellung der Aspekt 
der Beschreibung von Wirklichkeit durch 
Tlieorien dominierte. 

Was erklaren denn Testmodelle, die man 
auf einen Inhalt anwendet und die sich fiir 
einen Test als giiltig erwiesen haben, ei- 
gentlich? 

Sehr abstrakt ausgedruckt, erklart ein 
Testmodell systematische Zusammenhan- 
ge zwischen den Antworten oder Reak- 
tionen der Personen beziiglich der ver- 
schiedenen Items dadurch, daB latente 



Personenvariablen eingefiihrt werden. 
Dies ist folgendermaBen zu verstehen. 

In der Testdatenmatrix (s. Abb. 5.) wird es 
in aller Regel bestimmte systematische 
Zusammenhange zwischen den Itemant- 
worten geben, d.h. Personen, die bei ei- 
nem Item eine bestimmte Verhaltensweise 
zeigen, werden auch iiberzufallig oft bei 
einem anderen Item entweder dieselbe 
oder eine bestimmte andere Verhaltens- 
weise zeigen. Etwas genauer lassen sich 
‘Zusammenhange zwischen den Itemant- 
worten’ folgendermaBen definieren: 

Die Spalten in dieser Datenmatrix enthal- 
ten die Auspragungen der einzelnen Item- 
variablen. Diese Itemvariablen werden als 
manifeste Variablen bezeichnet, da sie 
direkt beobachtbar sind, also selbst Mani- 
festationen im Verhalten darstellen. 

Diese manifesten Variablen sind nicht 
unabhangig voneinander, sondern weisen - 
wie zuvor besclnieben - bestimmte Zu- 
sammenhange oder Kontingenzen auf. 



Kontingenz 

Der Begriff ‘Kontingenz’ bezeichnet die 
Eigenschaft zweier Variablen, daB be- 
stimmte Auspragungen der einen Valu- 
able gehauft mit bestinmiten Auspra- 
gungen der anderen Variablen zusammen 
auftreten. 

Nehmen beide Variablen nur zwei Werte 
an, ‘0’ und T, so laBt sich ihre Kontin- 
genz anhand einer Vierfeldertqfel dar- 
stellen. Ohne darauf einzugehen, wie 
man die Kontingenz berechnet, laBt sich 
an dem folgenden Beispiel sehen, daB in 
der linken Vierfeldertafel keine, in der 
rechten eine starke Kontingenz gegeben 
ist: 
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In der linken Tafel ist das Verhaltnis von 
0-Werten zu 1-Werten stets 2:3, in der 
rechten Tafel treten dagegen die Kom- 
binationen 0-1 und 1-0 extrem haufig auf. 

Um diese Kontingenzen zu erklaren, er- 
findet oder konstruiert man eine oder 
mehrere latente Personenvariable(n) 
(latent = verborgen, nicht sichtbar), die fur 
das Antwortverhalten im Test verant- 
wortlich ist (sind). 



Latente Variable oder Konstrukte? 

Latente Variablen heiBen auch Konstrukte, 
weil sie im Rahmen der Theorienbildung 
konstmiert worden sind. Dies gilt auch fur 
eine so prominente Variable wie ‘Intel- 
ligenz’. 

Im Gegensatz zum Begriff des ‘Kon- 
struktes’, der keine speziellen meB- oder 
testtheoretischen Eigenschaften impliziert, 
ist rnit ‘latente Variable' in der Regel ge- 
meint, daB es sich um genau eine Variable 
handelt, die allerdings quantitativ oder 
kategorial (nominal) sein kann. 



Im Falle der oben genannten Beispiele ist 
die latente Variable die Intelligenz der 
Person oder ihr Attributionsstil. Abbil- 
dung 6 verdeutlicht das Vorgehen. 



Item 1 □ 
Item 2 Ed 
Item 3 □ 
Item 4 El 





Item 1 
Item 2 
Item 3 
Item 4 



A bbildung 6: Beobachtete Zusammenhange zwi- 
schen den manifesten Variablen (den Items, linkes 
Bild) werden auf den EinfluB einer latenten Perso- 
nenvariable zuriickgefuhrt (rechtes Bild). 



Es wird also angenommen, daB eine (zu- 
nachst unbekannte) Vai’iable fur das Zu- 
standekommen der Itemantworten ‘verant- 
wortlich’ ist und daher deren beobachtbai’e 
Kontingenzen (Zusammenhange) ‘produ- 
ziert’. Wenn diese ‘Erklarung’ der Daten 
(Itemantwort) richtig ist, so muBten die 
Zusammenhange zwischen den Items ‘ver- 
schwinden’, wenn man die latente Variable 
‘ausschaltef , also z.B. konstant halt. Ge- 
nau das wird in den meisten Testmodellen 
angestrebt: wenn ein bestimmtes 

Testmodell gelten soil, diirfen die Item- 
antworten bei festgehaltener latenter Va- 
riable untereinander keine Zusammen- 
hange mehr aufweisen. 

Ein Dialog zum Erklarungswert von 

Testmodellen 

Frage: Warum lost Person A fast alle 

Aufgaben in diesem Test und 
Person B fast gar keine? 

Antwort: Weil A intelligenter ist als B. 

Frage: Aha. Du meinst Person A ist in- 

telligenter, weil sie mehr Aufga- 
ben lost! 

Antwort: Genau! 

Frage: Das ist doch zirkular! Du erklarst 

das eine mit dem anderen! 

Antwort: Ich definiere eben Intelligenz als 
die Fahigkeit, genau diese Auf- 
gaben zu losen. 

Frage: Und was hat das fiir einen Er- 

klarungwert? 

Antwort: Die Definition hat gar keinen Er 
klarungswert. Aber wenn ich Dir 
zeigen kann, daB es tatsachlich 
nur eine einzige Variable gibt 
von der es abhangt, ob ein Iten 
gelost wird oder nicht, dann ha 
das Erklarungswert. Und dies 
eine Variable nenne ich dann 
einfach Intelligenz. 
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Frage: Wie willst Du denn zeigen, daB 

das Antwortverhalten nur von 
einer einzigen Variable abhangt? 

Antwort: Z.B. indem ich mir Gruppen von 
Personen mit jeweils gleichem 
Intelligenzgrad anschaue. Inner- 
halb dieser Gruppen diirfte es 
keine systematischen Zusam- 
menhange mehr zwischen den 
Itemantworten geben. 

Frage: Was meinst Du mit ‘systema- 

tische Zusammenhange’? 

Antwort: Na, z.B. daB Personen, die hau- 
figer Item x losen auch haufiger 
Item y losen. 

Frage: Aber es konnte doch sein, daB 

diese Personen einen Trick ken- 
nen, mit dem man genau diese 
beiden Items x und y gut losen 
kann. 

Antwort: Ja, aber dann erklart mein Intel- 
ligenzbegriff nicht mein - die Da- 
ten, weil ich zusatzlich anneh- 
men muB, daB es ‘Tricks’ gibt, 
die nur einige Personen kennen. 

Frage: Ach, das meinst Du mit ‘erkla- 

ren'. 

Antwort: Genau. 

Als Resiimee zum Erklarungswert von 
Testtheorien sei festgehalten: Gilt ein 
Testmodell, in dem eine latente Variable 
angenommen wird, fiir eine Datenmatrix, 
so hat dies insofem eine Erklarungsfunk- 
tion, als eine einzige eifundene latente 
Variable die Zusammenhange zwischen 
sehr vielen manifesten Variablen be- 
sehrcibt. Die Beschreibung eines relativ 
komplexen Sachverhalts (die multivariaten 
Zusammenhange zwischen den manifesten 
Variablen) durch eine relativ einfache 



‘Erfindung’ (die latente Variable) kann als 
‘Erklarung’ gelten. 



Literatur 

Mit der Definition und Problematik psy- 
chologischer Tests setzen sich die Bucher 
von Lienert (1969; Lienert & Raatz 1994) 
und Grubitzsch & Rexilius (1978) sowie 
alle groBeren Lelirbiicher der psy- 
chologischen Diagnostik auseinander, 
Eine Ein frill rung in die Grundlagen der 
Experimentalpsychologie gibt Sarris 
(1990). Die Wissenschaftstheorie von 
Popper (1972) sowie konkurrierende An- 
satze sind in vielen Lehrbiichern darge- 
stellt, z.B. Schnell, Hill & Esser (1989). 
Mit der Modellbildung in der Psychologie 
befaBt sich Gigerenzer (1981). 



Ubungsaufgaben 

1. Was unterscheidet ein Experiment von 
der Durchfuhrung eines Tests? 

2. Nennen Sie drei psychologische Va- 
riablen mit unterschiedlichem Skalen- 
niveau und geben Sie fur jede der 
Variablen eine operationale Definition 
an, aus der das Skalenniveau ersicht- 
lich ist. 

3. Worin besteht das formale Modell, was 
sind die Modellparameter und wann ist 
eine Anwendung falsifiziert, wenn Sie 

- eine Vierfelder-Haufigkeitstabelle mit 
dem % 2 -Test auf Signifikanz testen. 

- eine einfaktorielle Varianzanalyse fiir 
drei Gruppen rechnen. 

4. Erklaren Sie unter Heranziehung einer 
latenten Variable die empirisch ermit- 
telte Kontingenz zwischen Geschwi- 
sterposition und beruflichem Erfolg 
(Erstgeborene sind erfolgreicher). Wie 
konnten Sie untersuchen, ob diese 
Erklarung zutrifft? 
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2. Testkonstruktion 

Dieses Kapitel befaBt sich mit Fragen und 
Problemen der Entwicklung und Kon- 
struktion von Fragebogen und Testinstru- 
menten. Die Erorterung von Fragen der 
Testkonstruktion wendet sich dabei nicht 
allein an diejenigen Leserlnnen, die tat- 
sachlich selbst einen Test entwickeln 
mochten (obwohl das irn Rahmen vieler 
Diplomarbeiten ini Fach Psychologie der 
Fall ist). Die Darstellung soli vielmehr 
auch dem Verstandnis und der kritischen 
Beurteilung existierencler Verfahren die- 
nen. 

Das Gliederungsprinzip des Kapitels er- 
gibt sich aus den Phasen, die bei einer 
Testentwicklung zu durchlaufen sind. 
Kapitel 2.1 befaBt sich niit den Gutekrite- 
rien fur Tests, d.h. mit der Frage, wodurch 
sich ein ‘guter’ Test auszeichnet. Kapitel 
2.2 besclircibt die Schritte, die idealer- 
weise durchlaufen werden sollten, wenn 
man ein neues Testinstrument konstmiert. 
Kapitel 2.3 geht dann konkret auf Fragen 
der Itemkonstruktion ein, d.h. auf die 
praktische Seite der Testentwicklung. 
Nach der Darstellung von Problemen der 
Datenerhebung in Kapitel 2.4 beschaftigt 
sich Kapitel 2.5 absehlicBcnd mit der Ko- 
dierung der Testantworten, d.h. mit der 
Transformation der Itemantworten in 
Zahlen, auf die man Testmodelle anwen- 
den kann. 

2.1 Gutekriterien fiir Tests 

Wenn man einen Test konstruieren will, 
muB man eine Vorstellung davon haben, 
was einen ‘guten' Test auszeichnet. Das ist 
die Frage nach den sogenannten GUtekri- 
terien fiir Tests. Klassischerweise werden 



hier drei Gutekriterien genannt, namlich 
Objektivitat, Reliabilitat und Validitat, die 
jeder Test zu einem MindestausmaB zu 
erfiillen hat. 



Mit Objektivitat ist gemeint, inwieweit das 
Testergebnis unabhangig ist von jeglichen 
Einfliissen auBerhalb der getesteten Per- 
son, also vom Versuchsleiter, der Aid der 
Auswertung, den situationalen Bedingun- 
gen, der Zufallsauswahl, von den Test- 
items usw. Es ist ersichtlich, daB es sehr 
viele verschiedene Allen von Objektivitat 
bei Tests zu unterscheiden gilt. 

Mit Reliabilitat (Zuverlassigkeit) ist das 
AusmaB gemeint, wie genau der Test das 
miBt, was er miBt (egal, was er miBt). Es 
ist hier lediglich die Mefigenauigkeit, die 
numerische Prazision der Messung ange- 
sprochen, unabhangig davon, was der Test 
tiberhaupt miBt. Als MeBgenauigkeit wird 
dabei nicht die Zahl der Dezimalstellen 
der MeBwerte bezeichnet, sondem die Zu- 
verlassigkeit, mit der bei einer wieder- 
holten Messung unter gleichen Bedingun- 
gen dasselbe MeBergebnis herauskommt. 

Mit Validitat ist gemeint, inwieweit der 
Test das miBt, was er messen soil. Es geht 
also um den Grad der Giiltigkeit der Mes- 
sung oder der Aussagefahigkeit des Test- 
ergebnisses bezilglich der MeBintention. 



Diese klassische Trias von Testgiitekrite- 
rien entstammt einer testtheoretischen 
Tradition, die die Auswertung von Tests 
noch nicht aus dem Blickwinkel der An- 
wendung eines Testmodells sah. Trotzdem 
lassen sich die drei Konzepte der 
Objektivitat, Reliabilitat und Validitat 
weiterhin zur Beschreibung, der Giite 
eines Tests verwenden. 

Alle drei Gutekriterien haben verschiedene 
Teilaspekte, und es gibt fiir jedes auch 





32 



2. Testkonstruktion 



verschiedene Allen, es zu operationali- 
sieren und in konkrete Zahlen zu fassen. 
Die konzeptuellen Ausdifferenzierungen 
werden in den folgenden drei Unterka- 
piteln beschrieben, die konkreten Berech- 
nungsmoglichkeiten erst in Kapitel 6 
(Testoptimierung). Kapitel 2.1.4 geht auf 
die logischen Beziehungen ein, die zwi- 
schen diesen Konzepten bestehen. Kapitel 
2.1.5 behandelt schlieBlich ein weiteres 
Giitekriterium, namlich die Normierung. 
Geordnet sind die Kapitel nach der Wich- 
tigkeit der Giitekriterien, beginnend rnit 
dem wichtigsten, der Validitat. 

2.1.1 Validitat 

Unter der Validitat eines Test versteht 
man das Ausmafi, in dem der Test das 
mifit, was er messen soil. 

Wie beurteilt man aber, inwieweit der Test 
miBt, was er messen soil? Hier gibt es 
prinzipiell zwei Moglichkeiten. Die eine 
Moglichkeit setzt voraus, daB eine andere 
Messung dessen, was der Test messen soil, 
verfiigbar ist. In diesem Fall braucht man 
nur an einer Stichprobe von Personen 
beide Allen der Messung vorzunehmen 
und zu priifen ob die Ergebnisse bei alien 
Personen iibereinstimmen. 



Beispiel 

Man mochte einen besonders okonomi- 
schen (kurzen) Intelligenztest entwickeln 
und hat zufallig eine Stichprobe von Per- 
sonen zur Verfugung, die schon vor eini- 
ger Zeit hinsichtlich ihrcr Intelligenz un- 
tersucht worden sind und deren Intelli- 
genzgrad daher bekannt ist. Diesen Per- 
sonen gibt man dann auch den Kurztest 
vor. Die Korrelation zwischen beiden 
MeBwertreihen ist dann ein MaB fur die 
Validitat des Kurztests. 



Nach dieser Moglichkeit entspricht die 
Validitat eines Tests der Korrelation des 
Testergebnisses mit einer anderen Valua- 
ble, die eine Messung desselben Merkmals 
darstellt. 



Was ist eine Korrelation? 

Als Korrelation bezeichnet man den Zu- 
sammenhang zwischen zwei quantitativen 
Variablcn. Es handelt sich also um eine 
spezielle Art der Kontingenz (s. Kap. 
1.2.4). Die Hohe der Korrelation, also die 
Starke des Zusammenhangs wird durch 
den Korrelationskoeffizienten ausge- 
druckt. 

Dieser kann Welle zwischen -1 und +1 
annehmen, wobei eine Korrelation von 0 
bedeutet, daB zwischen den beiden Varia- 
blen kein Zusammenhang besteht. Eine 
negative Korrelation bedeutet, daB hohe 
Werte auf der einen Variable mit niedrigen 
Werten auf der anderen Variable einherge- 
hen, wahrend eine positive Korrelation 
bedeutet, daB hohe Werte auf beiden Va- 
riablen bzw. niedrige Werte auf beiden 
Variablen miteinander gepaart sind. 

Der Korrelationskoeffizient zwischen zwei 
Variablen X und Y wird folgendermaBen 
berechnet 



Korr(X, Y ) = 



Cov(X, Y) 



7V ar(X)-Var(Y) ' 



Die Kovarianz im Zahler ist das durch- 
schnittliche Produkt der Abweichungen 
beider MeBwerte von ihicm jeweiligen 
Mittelwert, 

j N j N 

X= N Z x v> bzw.y = ^£ y v 

V=1 V=1 

1 N 

Cov(X,Y) = ^- ^ (x v -x)-(y v -y). 
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N bezeichnet die Anzahl und v den Sum- 
mationsindex der Personen. 

Im Nenner des Korrelationskoeffizienten 
steht die Wurzel aus dem Produkt beider 
Varianzen, wobei die Varianz einer Varia- 
ble X definiert ist als die durchschnittliche 
quadrierte Abweichung aller MeBwerte 
von ill re m Mittelwert: 

Var ( X ) = ^X ( x v- x ) 2 - 

V — 1 



Diese Art der Validitat nennt man externe 
Validitat, weil ill re Bestimmung anhand 
der Testergebnisse eine externe (d.h. au- 
Berhalb des Tests liegende) Valuable vor- 
aussetzt, und zwar genau die Variable, die 
der Test erfassen will. 

Die zweite Moglichkeit zu priifen, ob der 
Test das rniBt, was er messen soil, benutzt 
allein die Daten, die aufgrund der Test- 
du re h full rung vorliegen. Hier wird gepriift, 
ob die Personen auf die Items so antwor- 
ten, wie man es aufgrund der Theorie iiber 
die zu messende Personeneigenschaft 
erwarten wiirde. Dabei wird natiirlich 
nicht vorausgesetzt, daB man die Auspra- 
gungen der Personeneigenschaft bereits 
kennt. 



Beispiel 

Ein Steinzeitmensch mochte die Muskel- 
kraft seiner Stammesgenossen testen und 
sucht sich hierfiir eine Reihe unter- 
schiedlich groBer Steine und Felsbrocken 
zusammen. Die GroBe der Steine ist un- 
terschiedlich genug, so daB man sie ‘mit 
dem Auge’ der GroBe nach ordnen und 
(sofern die Zahlen schon erfunden sind) 
der GroBe nach durchnumerieren kann. 
Jeder Stanmiesgenosse muB versuchen, 
alle Steine anzuheben und die Nummer 



des groBten Steins, den er anheben kann, 
ist der MeBwert fiir seine Muskelkraft. 

Aus der Steinzeittheorie iiber die Per- 
soneneigenschaft ‘Muskelkraft’ folgt, daB 
jede Person alle Steine bis zu einer GroBe, 
die ihrer Kraft entspricht, anheben kann. 
Beobachtet der Steinzeitmensch nun, daB 
jede Person alle Steine, die kleiner sind als 
der groBte, den sie heben kann, auch an- 
heben kann, so ist der Test intern valide. 



Dies ist nur ein Beispiel fiir einen mogli- 
chen Zusammenhang zwischen der Perso- 
neneigenschaft und dem Testverhalten. Es 
macht deutlich, daB der Begriff der inter- 
nal Validitat gleichzusetzen ist mit der 
Giiltigkeit des jeweils zugrunde gelegten 
Testmodells. 

Ein Test heiBt intern valide, wenn 
sich die Annahmen iiber das Ant- 
wortverhalten anhand der Datenma- 
trix bestatigen lassen. 

Je strenger die Annahmen iiber das Ant- 
wortverhalten, desto iiberzeugender laBt 
sich die interne Validitat eines Tests 
nachweisen. Wahrend man zum Nachweis 
der externen Validitat ein Validitatskri- 
terium braucht (so nennt man die externe 
Variable, die das reprasentiert, was der 
Test messen soil), erfordert der Nachweis 
der intemen Validitat prdexperimentelle 
Annahmen iiber das Antwortverhalten bei 
den einzelnen Items. 

Beide Aspekte der Validitat bedingen sich 
nicht unbedingt gegenseitig. So kann es 
z.B. sein, daB mit einern intern validen 
Test, fiir den das angenommene Testmo- 
dell sehr gut paBt, eine Variable gemessen 
wird, die keinerlei Erklarungswert fiir das 
sonstige Verhalten der Personen hat. Ge- 
nauso kann irgendein Testergebnis einen 
guten Vorhersagewert fiir bestinmite an- 
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dere Vaiiablen besitzen, ohne dab man 
eine Theorie iiber die Itemantworten hat. 

Es wird deutlich, dab interne und externe 
Validitat zwei sehr unterschiedliche Seiten 
desselben Giitekriteriums sind. Wahrend 
die Priifung der internen Validitat ein 
zentrales Thema der Testtheorie darstcllt, 
uberschreitet die Frage der externen Va- 
liditat den Bereich der Testtheorie. Ob ein 
Test extern valide ist, kann mit den iibli- 
chen Methoden statistischer Datenanalyse 
untersucht werden. Kapitel 6.4 geht auf 
die einfachsten Allen der Validitatsbe- 
rechnung ein und beschreibt den Einflub 
der Mebgenauigkeit eines Tests auf die 
Hohe der errechneten externen Validitat. 

Ganz anders verhalt es sich mit der inter- 
nen Validitat eines Tests. Sie ist abzulesen 
an der Geltung des jeweiligen Testmodells 
fur den Datensatz der Testentwicklung. 
Hier gibt es jedoch andere Probleme. Ob 
ein Testmodell gilt oder nicht gilt, ist oft 
keine Ja-Nein-Entscheidung, sondem kann 
durchaus ein graduelles Urteil sein, d.h. 
ein Testmodell kann mehr oder weniger 
gut passen. Oft ist die Entscheidung, ob 
ein Testmodell pabt oder nicht, auch nur 
relativ zu anderen Testmodellen zu beant- 
worten, d.h. es labt sich lediglich sagen, 
ob ein bestimmtes Testmodell besser pabt 
als ein bestimmtes Vergleichsmodell. In 
diesen Fallen gibt es nicht mal mehr eine 
quantitative Aussage, wie gut ein Modell 
pabt, sondern lediglich eine relative Aus- 
sage, die davon abhangt, welche Ver- 
gleichsmodelle man uberhaupt gepilift hat. 
Hierauf wird in Kapitel 5 im Detail einge- 
gangen. 



2.1.2 Reliabilitat und MeBge- 
nauigkeit 

Die Reliabilitat oder zu deutsch die Zuver- 
lassigkeit eines Tests bezeichnet die Pra- 
zision oder Genauigkeit, mit der ein Test 
eine Personeneigenschaft mibt. Reliabili- 
tat im engeren Sinne meint jedoch eine 
bestimmte Definition von Mefigenauig- 
keit, die nicht die einzig mbgliche ist und 
auch nicht bei jedem Testmodell Sinn 
macht. Um diese Definition verstandlich 
zu machen, wird zunachst dargestcllt, was 
ein Mefifehler ist. 

Angenommen, man hat bei einer Anzahl 
von N Personen intervallskalierte Meb- 
werte erhoben. Der Mebwert einer Person 
v wird mit x v bezeichnet und stellt den 
sog. beobachteten Wert dar. 

Von diesem Mebwert nimmt man an, dab 
er die ‘wirkliche' Eigenschaftsauspragung 
ziemlich genau, aber nie ‘ganz genau’ wi- 
derspiegelt. Die hypothetische wirkliche 
Eigenschaftsauspragung einer Person wird 
mit t v bezeichnet (t wie true = wahr) und 
stellt den sog. wahren Wert dar. 

Den kleinen Betrag, um den der beobach- 
tete Wert von dem wahren Wert abweicht, 
nennt man Mefifehler und bezeichnet ihn 
mit e v (e wie error = Fehler). Aus diesen 
Uberlegungen ergibt sich die Grundglei- 
chung der Mefifehlertheorie: 




Da die Grundgleichung der Mebfehler- 
theorie fur alle Personen v gelten soil, labt 
sie sich auch als Beziehung zwischen den 
Variablen schreiben: 



X = T + E 
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X bezeichnet die MeBwertvariable, T die 
Variable der wahren Werte und E die 
Fehlervariable. 

Anmerkung 

Variablen werden hier und im folgenden mit gro- 
Ben lateinischen Buchstaben bezeichnet, ihre 
Auspragungen mit den zugehorigen Kleinbuch- 
staben. 

Diese Gleichungen zerlegen das beobach- 
tete Testergebnis x v in zwei Komponen- 
ten, t v und e v , die man beide nicht kennt. 
Uber den wahren Wert kann man nicht 
viel sagen, aber einen MeBfehler zeichnen 
zwei Eigenschaften aus: 

Erstens zeichnet sich ein MeBfehler da- 
durch aus, daB er dazu beitragt, den wah- 
ren Wert manchmal zu uberschatzen, und 
manchmal zu unterschatzen. Genau das 
unterscheidet einen MeBfehler von einem 
systematischen Fehler, auch ‘Bias’ 

genannt: er ist im Mittel ‘neutral’. Mit an- 
deren Worten, der Mittelwert oder Erwar- 
tungswert der Mefifehlervariable E uber 
eine groBe Anzahl von Personen ist 0: 

Erw (E) = 0. (I) 

Was ist ein Erwartungswert? 

Der Erwartungswert ist eine KenngroBe 
einer numerischen Variable. Treten die 
Werte x einer Variable X mit der Wahr- 
scheinlichkeit p(x) auf, so ist der Erwar- 
tungswert definiert durch 

Erw(X)=X X P( X )- 

X 

Summiert wird hier iiber alle moglichen 
Werte der Variable X. In dem Beispiel 



X 


1 2 3 


P(X) 


0.5 0.3 0.2 



betragt der Erwartungswert 10.5+ 
2 0.3+3 0.2=1.7. Kennt man nicht die 
Wahrscheinlichkeitsverteilung einer Va- 
riable, also die Werte p(x), sondern hat 
man N Auspragungen der Variable x 
beobachtet, so entspricht der Mittelwert 
dieser Werte 




V=1 



naheru ngsweise dem Erwartungswert 
von X. Hat man in dem o.g. Beispiel von 
10 Beobachtungen 5-mal die 1, 3-mal 
die 2 und 2-mal die 3 beobachtet, so be- 
tragt der Mittelwert von X ebenfalls 
x=1.7. 



Zweitens gehort zum Konzept eines MeB- 
fehlers, daB er nicht mit dem wahren Wert 
korreliert ist, d.h. es darf nicht sein, daB 
z.B. hohe walire Werte uberschatzt werden 
und niedrige wahre Werte unterschatzt 
werden. In einem solchen Fall wiirde man 
ebenfalls von einem systematischen Fehler 
oder Bias sprechen. MeBfehler zeichnen 
sich daher auch dadurch aus, daB: 

Korr (E,T) = 0. (II) 

Uberhaupt gehort zum Konzept eines 
MeBfehlers dazu, daB er mit keiner an- 
deren Variable korreliert, also nicht mit 
den wahren Werten einer Variable Y : 

Korr (E x ,T y ) = 0, (HI) 

und auch nicht mit deren MeBfehler E,: 

Korr (E x ,E y ) = 0. (IV) 

Diese vier Gleichungen (1) bis (IV) nennt 
man auch die Axiome der klassischen 
Testtheorie. Sie wurden von Gulliksen 
(1950) formuliert und beschreiben nichts 
anderes als die Eigenschaften eines Mefi- 
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f elders. Aus ihnen ist keine Testtheorie ini 
Sinne von Kapitel 1 ableitbar, sondern nur 
eine Theorie iiber das Verhalten des MeB- 
fehlers. Sie wird daher im folgenden als 
Mefifehlertheorie bezeichnet. 

Im Unterschied zu einer Testtheorie, die 
sich auf nominale oder ordinale Itemant- 
worten bezieht, geht die MeBfehlertheorie 
von fertigen Mefiwerten X und Y aus. Die 
vier Gleichungen (1) bis (IV) stellen ge- 
nauso wie Testmodelle ein formales Mo- 
del l dar, nur bezieht sich dieses formale 
Modell auf eine andere Datenstruktur. 

Aus dem formalen Modell wird (wie im- 
mer) eine Theorie, wenn man es auf einen 
konkreten Inhalt (konkrete MeBwerte X 
und Y) anwendet und die Parameter des 
Modells schatzt (s.o. Kap. 1). In diesem 
Fall macht die MeBfehlertheorie die Aus- 
sage, daB ein MeBwert X nur eine latente 
Variable T x reprasentiert und die Abwei- 
chungen der MeBwerte von den wahren 
Vaiiablenauspragungen den Erwartungs- 
wert 0 haben und mit nichts anderem 
korrelieren. 

Diese Theorie ist z.B. dann falsifiziert, 
wenn sich herausstellt, daB der (ver- 
meintliche) MeBfehler die soziale Er- 
wiinschtheit beinhaltet (S.o. Kap. 1). Dann 
gibt es namlich eine Variable, die mit dem 
MeBfehler koiTeliert, namlich die Tendenz 
der Personen, sozial erwiinscht zu ant- 
worten. 

Wie im Fall von Testmodellen, so gibt es 
auch bei MeBfehlennodellen nicht nur ein 
Modell. Vielmehr entstehen durch ver- 
schiedene Zusatzannahmen und Erweite- 
mngen viele Mefifehlermodelle, die hin- 
sichthch ihrer Giiltigkeit miteinander ver- 
glichen werden konnen. Auf diese unter- 



schiedlichen MeBfehlermodelle wird in 
Kapitel 3. 1.1. 2.1 kurz eingegangen. 

Testmodelle und MeBfehlermodelle 
schlieBen sich also nicht gegenseitig aus, 
sondem sie erganzen einander: 

Testmodelle wendet man auf Itemant- 
worten an, um damns Mefiwerte zu ma- 
chen, Mefifehlermodelle wendet man auf 
die erhaltenen Mefiwerte an, um deren 
Fehleranteil zu bestimmen. 



Die gerade dargestellte MeBfehlertheorie 
bezieht sich ausschlieBlich auf quantita- 
tive, mindestens interval]- skalierte Perso- 
nenvariablen. Das gleiche gilt fiir die 
folgende Definition der Reliabilitat eines 
Tests. Nach dieser Definition ist Relia- 
bilitat ein Varianzanteil, namlich das Ver- 
haltnis von wahrer Varianz zu beobachte- 
ter Varianz. 



Reliabilitat = 



wahre Varianz Var (T x ) 
beobachtete Varianz = Var (X) 



Mit wahrer Varianz bezeichnet man die 
Varianz der nicht beobachtbaren, imagina- 
ren wahren Testergebnisse und mit beob- 
achtete r Varianz die Varianz der tat- 
sachlich in einem Test erhaltenen Ergeb- 
nisse. 



Aus den Annahmen der MeBfehlertheorie 
folgt, daB die wahre Varianz stets kleiner 
ist als die beobachtete Varianz. 



Beweis 

Die Varianz der Summe zweier Zufalls- 
variablen X und Y laBt sich nach der For- 
mel berechnen: 

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y). 

Mit Cov(X,Y) wird die Kovarianz von X 
und Y bezeichnet (s. Kap. 2.1.1). Diese ist 
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definitionsgemaB gleich 0, wenn die Kor- 
relation von X und Y gleich 0 ist. 

Die Grundgleichung der MeBfehlertheorie 
zerlegt den MeBwert in die Summe zweier 
unkorrelierter Variablen (laut Axiom II): 

X = T x + E» 

deren Vaiianzen sich folglich auch addie- 
ren: 

V ar(X)= V ar(T x )+ Var(E x ), 

Da Varianzen stets positiv sind, ist auch 
die wahre Varianz stets kleiner als die be- 
obachtete Varianz: 

Var(T x ) < Var(X). 



Dies mag auf den ersten Blick nicht ein- 
leuchten, kann man sich doch z.B. folgen- 
den Fall vorstellen: 

x | 5 10 15 20 25 
T x | 2 8 15 22 28 

Hier ware die wahre Varianz groBer als die 
beobachtete. Bei naherer Betrachtung sieht 
man jedoch, daB das Axiom II verletzt ist, 
denn die Fchlervariablc. im Beispiel: 

Ex | 3 2 0 -2 -3 



ist naturlich hoch (negativ) mit dem wah- 
ren Wert korreliert. 

Bei Geltung der Voraussetzungen ist tat- 
sachlich die wahre Varianz stets kleiner 
als die beobachtete Varianz, so daB nach 
der obigen Definition die Reliabilitat eines 
Tests stets zwischen Null und Eins liegt: 

0 < Rel. < 1. 

Dieses MaB fur die MeBgenauigkeit eines 
Tests gibt an, welcher Anteil an der Vari- 
anz der Mefiwerte wirklich auf Personen- 
unterschiede zuruckgeht und ist als Vari- 
anzanteil daher ahnlich inteipretierbar wie 



das Quadrat eines Korrelationskoeffizien- 
ten (= Anteil gemeinsamer Varianz) oder 
ein Erblichkeitsindex (= Anteil der erblich 
bedingten Varianz). 

Wie man die Reliabilitat eines Tests kon- 
kret berechnet, wird in Kapitel 6 be- 
schrieben. 

Soviel zu dem klassischen Reliabilitats- 
begriff, der nur eine Art der Definition der 
MeBgenauigkeit von Tests darstel It. Fur 
Tests mit einer kategorialen Personen- 
variable gibt es keine vergleichbare ein- 
heitliche Definition der MeBgenauigkeit. 
Hier kann sich eine hohe MeBgenauigkeit 
z.B. darin ausdrucken, daB die Anzahl der 
‘Fehlklassifikationen’ der Personen zu den 
Valenzen der kategorialen Personenva- 
riable sehr gering ist (s. Kap. 6). 

2.1.3 Objektivitat 

Wenn ein Testergebnis nicht unabhangig 
vom Testleiter, von Situationsmerkmalen, 
von storenden Randbedingungen, vom 
Testauswerter oder sonstigen Personen ist, 
so wird der Test auch keine interne Validi- 
tat und keine besonders hohe MeBgenau- 
igkeit erlangen konnen. Insofern ist Ob- 
jektivitat der Testdurchfuhrung eine logi- 
sche Voraussetzung fiir Reliabilitat und 
Validitat. Eine hohe Objektivitat bei der 
Testentwicklung zu erreichen, ist sornit 
kein Selbstzweck im Sinne eines positi- 
vistischen Wissenschaftsbegriffes, sondern 
lediglich Mittel, um Genauigkeit und 
Validitat zu erreichen. 

Im einzelnen ist bei der Testentwicklung 
anzustreben, daB das Testergebnis unab- 
hangig davon ist, 

- wer den Test vorgibt 

( Durchfuhrungsobjektivitdt), 
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- wer den Test auswertet 

(Auswertungsobjektivitat) und 

- wer den Test interpretiert 

( In terpretationsobjektivitdt ). 

Zusatzlich gibt es verschiedene Unterfor- 
men dieser Objektivitatsaspekte wie z.B. 
die Signierobjektivitat, die sich auf die 
Objektivitat bei der Kodiemng freier Ant- 
worten bezieht. Sie ist ein Teilaspekt der 
Auswertungsobjektivitat. 

Neben diesen Objektivitatsaspekten, die 
sich auf die Unabhangigkeit von anderen 
Personen beziehen, gibt es auch die Ob- 
jektivitat irn Sinne einer Unabhangigkeit 
von anderen Dingen. So sollte das Test- 
ergebnis z.B. weitgehend davon unabhan- 
gig sein, in welcher Situation der Test 
d u re h gelli hi t wurde. Damit kann natiirlich 
nur eine Unabhangigkeit innerhalb eines 
Spektrums ‘normaler’ Situationen gemeint 
sein. 

Vermutet man eine starke Situationsab- 
hangigkeit des Testergebnisses und halt 
deshalb die Testsituation konstant, indem 
man den Test quasi unter Laborbedin- 
gungen durchfiihrt, so hat das unter- 
schiedliche Auswirkungen auf die interne 
und exteme Validitat des Testergebnisses. 
Wahrend die interne Validitat sogar stei- 
gen kann, je starker man die situationalen 
Bedingungen konstant halt (da ein be- 
stimmtes Testmodell unter Idealbedingun- 
gen vielleicht besser paBt), diirfte die ex- 
terne Validitat im allgemeinen sinken: 
Wenn ein Testergebnis nicht mal auf ande- 
re Testsituationen generalisierbar ist, so 
wird auch seine Korrelation mit externen 
Variablen nicht hoch sein. 

Hier zeigt sich die semantische Ahnlich- 
keit des Begriffspaares ‘interne und exter- 



ne Validitat' mit den gleichlautenden Be- 
griffen aus der Versuchsplanung beson- 
ders deutlich: bei Experimenten bezeich- 
net man als exteme Validitat ebenfalls die 
Aussagekraft und die Generalisierbarkeit 
des Ergebnisses iiber die Experimentalsi- 
tuation hinaus. 

Ebenfalls eine Objektivitat im Sinne einer 
Unabhangigkeit von anderen Dingen ist 
mit dem Begriff der spezifischen Objek- 
tivitdt gemeint. Spezifische Objektivitat 
bezeichnet die Unabhangigkeit eines Test- 
ergebnisses von der Itemauswahl aus 
einem hypothetischen Item-Universum. 
Dahinter steht die Uberlegung, daB jeder 
Test nur eine sein - begrenzte Anzahl von 
Items umfassen kann, das Testergebnis 
aber nicht nur etwas iiber die Fahigkeit zur 
Beantwortung dieser Items aussagen soil, 
sondern iiber die Fahigkeit zur Beantwor- 
tung dieses Typs von Items. 

Eine Eigenschaftsmessung bezieht sich 
also immer auf ein ganzes Itemuniversum, 
das unendlich viele Items umfaBt. Ein 
wichtiger Objektivitatsaspekt ist daher mit 
der Frage angesprochen, ob bei jeder be- 
liebigen Itemauswahl stets dasselbe Test- 
ergebnis (abgesehen vom MeBfehler) her- 
auskommt. 

Diese sogenannte spezifische Objektivitat 
ist nicht nur eine Eigenschaft eines Tests, 
sondem auch des jeweiligen Testmodells: 
Bei den meisten der in Kapitel 3 behan- 
delten quantitativen Testmodelle sind die 
MeBwerte spezifisch objektiv, sofern das 
Modell fiir die Daten gtiltig ist. 
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2.1.4 Logische Beziehungen 
zwischen den drei Gutekrite- 
rien 

Zwischen den drei Giitekriterien eines 
Tests bestehen verschiedene logische Be- 
ziehungen, die sich unter bestimmten ma- 
thematischen Annahmen sogar in Formeln 
beschreiben lassen. Und zwar ist die Ob- 
jektivitat eine logische Voraussetzung fur 
die Reliability und diese wiederum ist lo- 
gische Voraussetzung fur die exteme Vali- 
dity : 

Validity (ext.) 

T 

Reliability 

T 

Objektivitat 

Ein Test, der bei einern anderen Testleiter 
oder in einem anderen Raum bei densel- 
ben Personen ganzlich andere Resultate 
erbringt, also nicht objektiv ist, kann auch 
keine hohe MeBgenauigkeit haben, d.h. 
nicht reliabel sein. 

Ebenso kann ein Test niit einer sehr gerin- 
gen MeBgenauigkeit (Reliability) keine 
besonders hohe exteme Validitat errei- 
chen. Soil z.B. ein Test entwickelt wer- 
den, der die Schulleistung vorherzusagen 
gestattet, so kann diese Vorhersage nicht 
besonders gut ausfallen, wenn der Test nur 
sehr ungenau miBt. 

Eine solche Voraussetzungsbeziehung be- 
steht nicht zwischen der MeBgenauigkeit 
und der internen Validitat. Auch ein un- 
genau messender Test kann intern valide 
sein. 

Andererseits besteht zwischen MeBge- 
nauigkeit, internet' und externer Validity 
auch ein kontradiktorisches Verhaltnis: 



Das Streben nach einer moglichst hohen 
MeBgenauigkeit bei der Testentwicklung 
kann in einem Widerspruch stehen zum 
Ziel einer moglichst hohen Validity. Die- 
ser Widerspruch ergibt sich daraus, daB 
sich die MeBgenauigkeit im allgemeinen 
dadurch steigem laBt, daB man den Test 
verlangert, d.h. zusatzliche Items auf- 
ninimt (s. Kap. 6.1.2). 

Durch eine Testverldngenmg, die den Test 
rein theoretisch beliebig genau machen 
konnte, konnen Items hineinkonmten, die 
einen etwas anderen Aspekt der latenten 
Variable ansprechen, es konnen Bearbei- 
tungseffekte wie Ermudung, Konzentrati- 
onsmangel, Wechsel der Antwortstrategie, 
Erinnerungseffekte, Lemeffekte und ahnli- 
ches eintreten. Diese Effekte konnen so- 
wohl die praexperimentelle Theorie liber 
das Antwortverhalten, d.h. das Testmo- 
dell, in seiner Giiltigkeit einschranken, ys 
auch die Korrelation mit einem Validi- 
tatskriterium, also die externe Validity, 
beeintrachtigen. 

Auch die Ziele einer moglichst hohen in- 
ternen und externen Validity konnen bei 
der Testentwicklung miteinander in einem 
Konflikt stehen. So laBt sich die interne 
Validity im allgemeinen dadurch steigern, 
daB man den Test homogener macht, d.h. 
moglichst ahnliche Aufgaben auswahlt. 
Damit erfaBt man aber eine sehr eng 
gefaBte, spezielle Personeneigenschaft, die 
nur noch geringe Korrelationen mit einem 
Validitatskriterium aufweist. 

Die immanenten Widersprtiche zwischen 
Reliability und Validity werden auch als 
Reliabilitdts-Validitdts-Dilemma der Test- 
theorie bezeichnet (s. Kap. 6.4.3). Dieses 
Dilemma ist letztlich Ursache fiir den 
weitverbreiteten Argwohn, daB Tests ent- 
weder mit einer hohen Prazision etwas 
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vollig Irrelevantes messen, oder eine Per- 
soneneigenschaft in ihr er ganzen Breite, 
aber vollig unzuverlassig erfassen. 

2.1.5 Normierung 

Neben den drei klassischen Giitekriterien 
gibt es das mehr pragmatische Kriterium 
der Normierung. Dieses betrifft die Frage, 
inwieweit es fiir die Ergebnisse eines 
Tests V ergleichsdaten gibt, anhand derer 
sich Einzelergebnisse interpretieren lassen. 
Solche Vergleichsdaten, die an reprasen- 
tativen Stichproben verschiedener Teilpo- 
pulationen der Bevolkerung erhoben wor- 
den sind, bilden dann die Normen, anhand 
derer das Ergebnis einer einzelnen Person 
beurteilt und interpretiert werden kann. 

Interpretiert man ein Ergebnis indem man 
es mit der Noim einer Referenzpopulation 
vergleicht, so spricht man auch von nor- 
morientiertem Testen. Das Gegenstiick 
hierzu ist das sogenannte kriteriumsori- 
entierte Testen. Hier wird das einzelne 
Testergebnis nicht iiber den Vergleich mit 
den Werten einer Referenzpopulation in- 
terpretiert, sondem anhand eines inhaltli- 
chen, vorher vom Testkonstrukteur ge- 
setzten Kriteriums. 

Ein prominentes Beispiel fiir diesen Un- 
terschied ist die Zensurenvergabe in der 
Schule. Ein normorientiertes Vorgehen 
besteht darin, daB zunachst fiir jeden 
Schliler Punkte vergeben werden, urn dann 
anhand der Punkteverteilung eine Noten- 
zuordnung durchzufiihren. Diese soil 
sicherstellen, daB auf jeden Fall ein paar 
Einsen und ein paar Fiinfen dabei sind. 

Beispiel: 

Punkte in Klausur 



223 


5 7 7 


9 11 12 14 16 


20 20 


25 


5 


4 


3 


2 


1 



Note 



Eine solche Zensur ist fiir den Schiiler 
normorientiert, d.h. sie informiert ihn nur 
iiber seine relative Stellung in der Klasse, 
seiner Referenzpopulation, aber nicht rela- 
tiv zum Leistungsziel. 

Bei einer kriteriumsorientierten Zensuren- 
vergabe wiirde der Lehrer vorher festle- 
gen, bei welcher Punktzahl es eine Eins, 
eine Zwei usw. gibt. Die resultierenden 
Zensuren sagen etwas dar iiber aus, wie der 
einzelne Schiiler zum gesteckten Lei- 
stungsziel, dem Kriterium, steht, aber 
nicht unbedingt, wie er im Vergleich zu 
den anderen Schiilern dasteht. 

Wie bei diesem Beispiel der Schullei- 
stungsbewertung gibt es generell bei psy- 
chologischen Tests die Alternative zwi- 
schen einer Normorientierung und einer 
Kriteriumsorientierung. 

Soil ein Test spater fiir individual dia- 
gnostische Zwecke eingesetzt werden, so 
sind im allgemeinen Normtabellen sehr 
hilfreich, da sie iiber die Verteilung der 
Testergebnisse in verschiedenen Referenz- 
populationen AufschluB geben, z.B. in 
Altersgruppen, Geschlechtsgmppen oder 
nach der Schulbildung definierten Grup- 
pen. Von daher wird die Normierung eines 
Tests im allgemeinen als ein Giitekrite- 
rium angesehen, da diese die Interpretation 
erleichtert und in einem gewissen Sinne 
auch objektiver macht (objektiv in dem 
Sinne der Unabhiingigkeit von der sub- 
jektiven Setzung eines inhaltlichen Krite- 
riums). 

Dennoch ist die Normierung eines Tests 
kein fiir alle Zwecke einer Testentwick- 
lung sinnvolles Giitekriterium. Auch bei 
individualdiagnostischen Fragestellungen 
kann eine rein kriteriumsorientierte Inter- 
pretation des Testergebnisses wesentlich 
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sinnvoller sein, z.B. bei der Frage, ob ein 
bestimmtes Krankheitsbild vorliegt oder 
nicht. In diesern Falle ist vom Testkon- 
strukteur nicht eine Normierung des Tests 
vorzunehmen, es muB vielmehr ein in- 
haltliches Kriterium oder mehrere soldier 
Kriterien fiir die Interpretation der Testre- 
sultate bereitgestellt werden. 

Fiir viele Zwecke der Testentwicklung 
stellt eine Normierung keine Notwendig- 
keit und auch kein Gtitekriterium dar. 
Geht es z.B. darum, im Rahmen von For- 
schungsarbeiten eine Personenvariable mit 
einem Test zu messen, um sie mit anderen 
Variablcn in Beziehung zu setzen, so ist 
eine Normierung der Testresultate iiber- 
fliissig: Sollen etwa zwei verschiedene 
Personengruppen hinsichtlich ihres Er- 
gebnisses in einem Test miteinander ver- 
glichen werden oder soil eine quantitative 
Personenvariable mit einer anderen Per- 
sdnliehkeitsvariable wie Extraversion oder 
Intelligenz korreliert werden, so ist es 
vbllig unerheblich, ob ein Test nomiiert ist 
oder nicht. Eine Normierung schlagt sich 
weder in Mittelwertsdifferenzen noch in 
Korrelationen nieder. 

Das Gtitekriterium der Normierung wird 
oft iiberbewertet, d.h. man begeht leicht 
den Fell I sell I ul.) anzunehmen, dab ein nor- 
mierter Test auch etwas Sinnvolles mi lit. 
Das kann, muB aber nicht der Fall sein: 
Das Gtitekriterium der Normierung steht 
in keinerlei logischer Beziehung zu den 
anderen drei Giitekriterien der Objektivi- 
tat, Mebgenauigkeit und Validitat. Auch 
ein wenig objektiver, wenig reliabler und 
wenig valider Test labt sich einer repra- 
sentativen Bevolkerungsstichprobe vorge- 
ben und an ihr normieren (s. Kap. 6.5). 



Literatur 

Die Giitekriterien fiir Tests werden von 
Lienert und Raatz (1994) aber auch in den 
meisten Diagnostik-Lehrbiichern (z.B. 
Guthke, Bottcher & Sprung 1990) behan- 
delt. Fischer (1974) und Steyer & Eid 
(1993) fiihren aus, dab die Axiome der 
Mebfehlertheorie keine Axiomatik im 
mathematischen Sinne darstellen. Das 
Konzept der spezifischen Objektivitat wird 
von Rasch (1977) und Fischer (1987) dis- 
kutiert. Die Abhangigkeit der Tester- 
gebnisse von Situationen wird von Eid 
(1995) systematised in die Formalisierung 
von Testmodellen einbezogen. 



Ubungsaufgaben 

1. Sie haben die Mebwerte einer Varia- 
blen X, die waliren Werte derselben 
Variable, T x , und die Mebwerte eines 
Validitatskriteriums Y von 5 Personen: 

Personen 

12 3 4 5 

T x : 1 I 5 9 9 

x: 2 0 5 10 8 

Y: 3 4 4 4 5 

Priifen Sie, ob fiir den Mebfehler der 
Mebwerte X die ersten beiden Axiome 
der Mebfehlertheorie gelten. Berechnen 
Sie die Reliabilitat und die externe 
Validitat von X. 

2. Nennen Sie 5 moglichst unterschied- 
liche Faktoren, die die Objektivitat 
eines Tests beeintrachtigen konnen. 

3. Ein Schiiler hat in einer Klausur 84% 
aller gestellten Aufgaben richtig gelost 
Emibglicht dieses Ergebnis bereits eine 
normorientierte oder kriteriumsorien- 
tierte Interpretation? Welche Zusatz- 
information benotigt man, um das 
Ergebnis normorientiert oder kriteri- 
umsorientiert interpretieren zu konnen? 
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2.2 Schritte der Testent- 
wicklung 

Jede Testentwicklung nimnit ihrcn Aus- 
gangspunkt in einer Theorie iiber die Per- 
soneneigenschaft, die der Test erfassen 
soil. Eine solche Theorie ist oft sehr wenig 
prazise und muB hinsichtlich verschiede- 
ner Aspekte konkretisiert werden, um 
Grundlage einer Testentwicklung sein zu 
konnen. 

Idealerweise findet diese Prazisierung in 
fiinf Schritten statt: 

- Erstens muB man sich dariiber klar 

werden, welcher Art die Personenva- 
riable iiberhaupt ist. 

- Zweitens kann man sich dariiber 
Gedanken machen, iiber welche Art 
von Testverhalten man diese Personen- 
eigenschaft am besten erfassen konnte. 

- Drittens sollte man den Typ von Items, 
die den gewiinschten SchluB vom Test- 
verhalten auf die Personeneigenschaft 
zulassen, als Itemuniversum fomiulie- 
ren. 

- Den vierten Sehritt stellt die Auswahl 

einer geeigneten Itemstichprobe aus 
diesem Universum dar. 

- SchlieBlich sollte man sich fiinftens 

auch schon vor der Testkonstruktion 
Gedanken iiber das Testmodell ma- 
chen, das auf diese Daten passen soli. 

Diese Punkte werden in den folgenden 
Unterkapiteln abgehandelt. 

2.2.1 Arten von latenten Varia- 
blen 

Aus der Theorie sollte ableitbar sein, ob 
die zu testende Personeneigenschaft quan- 
titativer Natur oder qualitativer Natur ist. 



Mit quantitativer Natur ist gemeint, daB 
sich die Personen hinsichtlich eines ‘mehr 
oder weniger' voneinander unterscheiden, 
das zu testende Personenmerkmal also 
graduelle Abstufungen annimmt. 

Mit qualitativer Natur ist gemeint, daB 
Personenunterschiede getestet werden sol- 
len, die sich darin ausdrucken, daB sich 
Gruppen von Personen qualitativ vonein- 
ander unterscheiden. Das zu messende 
Personenmerkmal ist dann lediglich nomi- 
nal skaliert. 

Weiterhin sollte aus der Theorie ableitbar 
sein, ob es sich um ein univariates oder 
ein multivariates Personlichkeitsmerkmal 
handelt. Univariat bedeutet, daB nur eine 
Variable variiert, multivariat heiBt ein 
Merkmal, das sich nur mit Hilfe von me li- 
re re n Variablen be sc h re i ben laBt. Im Fall 
von mehreren quantitativen Personenei- 
genschaften spricht man auch von einer 
mehrdimensionalen Personenvariable. 

Ein Beispiel ist das Konstrukt Angstlich- 
keit, das sich als eine mehrdimensionale 
Variable definieren laBt. Die einzelnen Di- 
mensionen ergeben sich aus den Gegen- 
standsbereichen, in denen sich Angst- 
liclikeit manifestiert, also z.B. Angst vor 
physischer Verletzung, Angst vor sozialer 
Ablehnung, Angst vor medizinischer Be- 
handlung etc. 

Auch bei kategorialen oder qualitativen 
Eigenschaften gibt es multivariate Kon- 
zeptionen. Ein Beispiel hierfur ist die 
Messung des Attributionsstils, welcher als 
eine bivariate Personeneigenschaft aufge- 
faBt werden kann: 

Die erste kategoriale Personenvariable 
unterscheidet, ob die Person primar intern 
oder primal' extern attribuiert (‘es liegt 
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alles an niir' oder ‘es lag an den auBeren 
Umstanden’). Die zweite kategoriale Per- 
sonenvariahlc unterscheidet stabile versus 
labile Attributionen (‘das ist immer so’ 
oder ‘in diesem einzelnen Fall war das so’). 

Es gibt also sowohl bei kategorialen als 
auch bei quantitativen Personenvariablen 
univaiiate und multivariate Konzeptionen 
von Personeneigenschaften. Sind die Per- 
sonenvariablen kategorial, so laBt sich aus 
ihnen eine einzelne Variable konstruieren, 
die als Kategorien die moglichen Kombi- 
nationen der Kategorien der Ausgangsva- 
riablen hat. Im obigen Beispiel wiirde man 
also eine latente Variable mit vier Aus- 
pragungen bilden: 

intern - labil 
intern - stabil 
extern - labil 
extern - stabil 

Sofem die Variablen quantitativ sind, es 
sich also um eine mehrdimensionale Va- 
riable handelt, sind die moglichen Impli- 
kationen fur die Testentwicklung vielfal- 
tig- 

Der einfachste Fall besteht darin, daB man 
versucht, die verschiedenen Dimensionen 
mit unterschiedlichen Items zu erfassen. 
Im oben genannten Beispiel eines Angst- 
fragebogens konstruiert man also Fragen 
zur Angst vor physischer Verletzung, zur 
Angst vor sozialer Ablehnung etc. In die- 
sem Fall kann man jede Teilmenge von 
Items, jeden sogenannten Subtest, als 
eigenstandigen Test konstruieren und aus- 
werten. AnschlieBend konnen die Zusam- 
menhange der MeBwerte auf den verschie- 
denen Dimensionen analysiert werden. 

Komphzierter ist der Fall, daB dieselben 
Items mehrere Dimensionen ansprechen. 
Z.B. wird die Beantwortung der Frage: 



Wie unangenehm ist es Ihnen, sich 
nachts in einem Gasthaus in einer 
fremden Gegend nach dem Weg 
erkundigen zu mils sen? 

sowohl von der Angst vor physischer Ver- 
letzung, als auch von der Angst vor sozia- 
ler Ablehnung beeinfluBt sein. Generell ist 
von der Konstruktion derartiger mehrdi- 
mensionaler Tests abzuraten, obwohl es 
Testmodelle gibt, mit denen man auch 
solche Tests auswerten kann (s. z.B. Kap. 

3.4.2) . 

Der dritte Fall mehrdimensionaler Tests 
besteht darin, daB man nicht die Items 
sondern die Antwortkategorien danach 
unterscheidet, welche Dimension sie 
ansprechen. Ein Beispiel ist die Frage: 

Was wtirden Sie heute abend um 
liebsten unternehmen ? 

- ins Theater gehen 

- Freunde besuchen 

- gutes Essen zubereiten 

Die Auswahl der Antwort wird in diesem 
Beispiel von drei Dimensionen des Frei- 
zeitinteresses bestimmt: das Interesse an 
kulturellen Aktivitaten, an sozialen Akti- 
vitaten und an gestaltenden Beschaftigun- 
gen. Diese Art der Erfassung mehrdimen- 
sionaler Eigenschaft birgt gewisse Schwie- 
rigkeiten, auf die im Kapitel 3.2.2 einge- 
gangen wird, und kommt in der Praxis 
selten vor. Trotzdem gibt es auch fur 
diesen Fall geeignete Testmodelle (Kap. 

3.2.2) . 

SchlieBlich gibt es einen speziellen Fall 
der Kombination einer kategorialen und 
einer quantitativen Personenvariable. Die- 
sel’ ist dann gegeben, wenn eine quan- 
titative Personenvariable gemessen wer- 
den soil, aber damit zu rechnen ist, daB 
verschieclene Personengruppen diesen 
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Test auf unterschiedliche Art und Weise 
bearbeiten. 



Beispiel 

Die Messung des raumlichen Vorstel- 
lungsvermogens ist zweifellos ein Beispiel 
fiir die Messung einer quantitativen 
Personenvariable. Es folgt allerdings aus 
der Theorie, dab es zwei unterschiedliche 
Arten von Losungsstrategien fur die Test- 
items gibt, namlich eine analytische und 
eine hohstische Strategic. Weiterhin wird 
angenommen, dab jede Person eine dieser 
beiden Strategien bevorzugt und daher 
auch einen Raumvorstellungstest primar 
mit der von i hr bevorzugten Strategic lost. 
In diesem Falle gibt es eine kategoriale 
Personenvariable (holistische versus ana- 
lytische Strategiepraferenz) und eine quan- 
titative Personenvariable, namlich die 
Fahigkeit, mit der jeweiligen Strategic 
Raumvorstellungsaufgaben zu losen. 



Auch fur diesen Spezialfall einer Kom- 
bination von kategorialer und quantitative! - 
Personenvaiiable gibt es spezielle Test- 
modelle, die in Kapitel 3.1.3 und 3.3.5 be- 
handelt werden. 



2.2.2 Arten von Tests 

Hat man sich Klarheit dariiber verschafft, 
welcher Art die zu messende Personen- 
eigenschaft ist, so stellt sich als nachstes 
die Frage, welcher Art das zu beobachten- 
de Testverhalten ist, und wie es mit der 
Personeneigenschaft zusammenhangt. Je 
nach der Art des im Test erfabten 
Verhaltens lassen sich folgende Arten von 
Tests unterscheiden: 

Feistungstests 

Personlichkeitsfragebogen 

objektive Personlichkeitstests 

Projektive Tests 

Situationsfragebogen 

Symptomlisten 

Einstellungstests 

Motivations- und Interessensfragebogen 
V erhaltensfragebogen 

Im folgenden soil das Charakteristische 
der Beziehung zwischen Personeneigen- 
schaft und Testverhalten bei diesen Test- 
arten dargestellt werden. 

2.2.2.1 Leistungstests 



Die Klamng der Frage, welcher Art die 
latente Variable ist, die der Test erfassen 
soil (kategorial oder quantitativ, ein- oder 
mehrdimensional) stellt deswegen den 
ersten Planungsschritt bei der Testent- 
wicklung dar, weil die Beantwortung die- 
ser Frage weitgehend von der psycholo- 
gischen Theorie iiber die betreffende Per- 
sbnlichkeitseigenschaft bestimmt sein 
sollte. Die konkreten Implikationen fiir die 
Testkonstruktion ergeben sich aber erst 
aus der Kenntnis der Testmodelle, die man 
fiir den jeweiligen Zweck heranziehen 
kann. 



Leistungstests zeichnen sich dadurch aus, 
dab von den Personen die Fosung von 
Aufgaben oder Problemen verlangt wird, 
die Reproduktion von Wissen, das Unter- 
beweisstellen von Konnen, Ausdauer oder 
Konzentrationsfahigkeit. So heterogen die- 
se Aufzahlung klingen mag, Feistungs- 
tests haben die wichtige Eigenschaft ge- 
meinsam, dab die getesteten Personen das 
Ergebnis willentlich nur in einer Richtung 
verfalschen konnen, namlich ‘nach unten’. 
Man kann sich ‘diimmer’ stellen als man 
ist, man kann sich keine Miihe geben bei 
der Testbearbeitung oder die Antworten 
einfach zu erraten versuchen. Man kann 
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aber nicht in Verfalschungsabsicht eine 
hohere Leistung erbringen als die, zu der 
man imstande ist. 

Leistungstests sind daher schon von vorn- 
herein als ‘halb-objektiv’ zu bezeichnen, 
obwohl die Verfalschungsmoglichkeit 
'naeh unten’ aufgrund mangelnder Test- 
motivation, z.B. bei Felduntersuchungen, 
sehr gravierende Einschrankungen der 
Interpretierbarkeit der Ergebnisse mit sich 
bringen kann. Das Phanomen des Erratens 
der richtigen Losung kann mit Mitteln der 
Ttemkonstruktion eingeschrankt und mit 
geeigneten Testmodellen kontrolliert wer- 
den. 

Innerhalb der Kategorie der Leistungstests 
gibt es eine weitere Unterteilung in soge- 
nannte speed- und power-Tests. Bei speed- 
Tests wird durch eine begrenzte Zeitvor- 
gabe neben der Qualitat der Leistung auch 
die Geschwindigkeit erhoben, mit der eine 
Leistung erbracht wird. Bei power-Tests 
zahlt dagegen nur, ob die Aufgaben richtig 
oder falsch gelost wurden, und nicht 
wieviel Zeit die Person dafiir benotigt. 

Reine power-Tests sind schon aus tech- 
nischen Griinden kaum durchfiihrbar, da 
jede Testvorgabe eine zeitliche Begren- 
zung haben muB. Diese Grenze sollte aber 
so bemessen sein, daB in der Regel alle 
Personen bis zur letzten Testaufgabe 
vordringen. Nur in diesem Pall lassen sich 
die meisten Testmodelle auf die resul- 
tierenden Daten anwenden: die unter- 
schiedliche Anzahl von nicht bearbeiteten 
Aufgaben wirft rechnerische Probleme, 
vor allem aber auch Interpretationspro- 
bleme auf. 

Relativiert man die erbrachte Leistung an 
der Zahl der bearbeiteten Aufgaben, so 
bewertet man die langsamen Personen zu 



gut, da sie sich fur jede Aufgabe mehr Zeit 
als die schnellen Personen genommen 
haben. Relativiert man die Leistung an der 
Gesamtzahl der angebotenen Aufgaben, so 
bewertet man die Qualitat der Leistung 
von langsamen Personen zu schlecht, da 
man nicht beriicksichtigt, wieviele der 
nicht bearbeiteten Aufgaben sie noch hat- 
ten losen konnen. 

Auf jeden Pall stellt die Verquickung von 
Qualitat und Geschwindigkeit bei ‘ge- 
speedeten’ Leistungstests ein Problem dar, 
fur dessen Losung es zwar einige Ansatze 
in der Testtheorie gibt, von denen aber 
keiner ganz befriedigend ist. Giinstiger ist 
es, die Bearbeitungszeit pro Aufgabe zu 
begrenzen. Hier hat jede Person dieselben 
Bedingungen fur jede Aufgabe und es las- 
sen sich die meisten Testmodelle pro- 
blemlos anwenden. 

Fur einige Varianten von Speed-Tests 
benotigt man allerdings auch keine Test- 
modelle. MiBt man etwa die Zeit, die eine 
Person fur eine vorgegebene Menge von 
Aufgaben benotigt, so hat man mit der 
gemessenen Zeitdauer bereits eine metri- 
sche Personenvariablc. Um den Qualitats- 
aspekt aus dieser Zeitmessung ganz zu 
eliminieren, kann man falsch geloste Auf- 
gaben wiederholt vorlegen (z.B. beim 
computerunterstutzten Testen), so daB die 
Zeit fur die richtige Losung alter Aufga- 
ben gemessen wird. 

Mit einer gewissen Berechtigung laBt sich 
bei Vorgabe eines festen Zeitintervalls 
auch die Anzahl der richtig gelosten Auf- 
gaben als eine Haufigkeit, und somit als 
eine metrische Variable auffassen und man 
kann ebenfalls von der Anwendung eines 
Testmodells absehen. 
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Spielt also die Geschwindigkeit eines 
Verhaltens die zentrale Rolle bei der Mes- 
sung einer Personeneigenschaft, so laBt 
sich die physikalische GroBe ‘Zeit’ auch 
zur (metrischen) Operationalisierung die- 
ser Personeneigenschaft nutzen. 

2.2.2.2 Personlichkeitsfragehogen 

Persdnlichkeitsfragebogen sind dadurch 
charakterisiert, daB von der befragten Per- 
sonen eine Selbstauskunft (self report) ver- 
langt wird. Fragen wie 

Sorgen Sie sich urn schreckliche 

Dinge, die vielleicht geschehen 

konnten ? 

ja - nein 

(Item aus dem EPI, Eggert 1974) 

stellen verschiedene Anforderungen an 
den BeantwortungsprozeB, wenn der 
SchluB von der Itemantwort auf die Perso- 
neneigenschaft (hier: Neurotizismus) ge- 
rechtfertigt sein soli. 

Zunachst einmal muB die erfragte Selbst- 
kenntnis vorhanden sein, d.h. die Person 
muB wissen, ob sie sich urn schreckliche 
Dinge sorgt. Dies ist ein Aspekt der 
Metakognition (das ist die Einsicht in 
eigene kognitive Prozesse) der befragten 
Person, die durchaus nicht immer vorhan- 
den sein muB. Ist diese Metakognition 
nicht vorhanden, oder entspricht sie ganz 
und gar nicht der Realitat, so kann man 
von der Itemantwort bestenfalls auf das 
Selbstbild der Person, aber nicht auf ill re 
Personlichkeit schlieBen. Beispiel: eine 
Person meint, sie mache sich Sorgen iiber 
schreckliche Dinge, sorgt sich aber tat- 
sachlich nur darum, daB das Geld nicht bis 
zum Monatsende reichen konnte. 



Sodann muB eine Offenbarungsbereit- 
schaft vorhanden sein, d.h. die Person 
muB bereit sein, gemaB ihrer Metakogni- 
tion zu antworten. Es kann z.B. sein, daB 
eine Person zwar die Bereitschaft hat, den 
Test auszufiillen, aber ihr Ideal-Selbstbild 
anstelle des Real-Selbstbildes wiedergibt. 
Mit Ideal-Selbstbild ist hier dasjenige 
Selbstbild gemeint, das die Person gerne 
gegenuber demjenigen, der den Test vor- 
gibt, zeichnen mdchte. 

Man hat den Tendenzen, sich in einem 
Persdnlichkeitsfragebogen anders darzu- 
stellen als man wirklich ist, verschiedene 
Namen gegeben: Beantwortet eine Person 
die Fragen so, daB ein positives, in unse- 
rer Gesellschaft allgemein akzeptiertes 
Bild entsteht, so beeinfluBt die Variable 
der sozialen Erwiinschtheit ihr Antwort- 
verhalten. Eine zweite Variable, die die 
Ehrlichkeit der Antworten in einem Per- 
sdnlichkeitsfragebogen beeinfluBt, ist die 
Tendenz zur Selbstprasentation (self 
monitoring). Personen, die sich stets der 
jeweiligen Situation angepaBt dais te lien, 
also die Eigenschaft eines Chamaleons 
haben, tun dies eventuell auch bei der 
Beantwortung eines Personlichkeitsfrage- 
bogens. 

Ist die Metakognition und die Offenba- 
rungsbereitschaft gegeben, so ist als drittes 
eine geeigneter Beurteilungsmafistab vor- 
auszusetzen, der Daten aus sozialen Ver- 
gleichsprozessen erfordert. So beinhaltet 
z.B. die Frage, ob man sich Sorgen urn 
schreckliche Dinge macht, auch den 
Aspekt, ob die befragte Person das hau- 
figer oder intensiver tut als andere Per- 
sonen. Dies setzt bei der Beantwortung der 
Frage voraus, daB die Person es ein- 
schatzen kann, inwieweit sich andere 
Menschen Sorgen um schreckliche Dinge 
machen. 




2.2 Schritte der Testentwicklung 



47 



Wird eine Frage ohne einen solchen Beur- 
teilu ngsmabstab beantwortet, so sagt die 
Antwort zwar auch etwas iiber die Person 
aus (namlich, dab sie meint, dab sie sich 
mehr als andere Personen Sorgen macht). 
Sie sagt dann aber weniger iiber den ‘tat- 
sachlichen’ Neurotizismusgrad der Person 
aus, sondem vielleicht etwas iiber ihren 
Leidensdruck oder ihren Glauben, dab es 
anderen Leuten besser geht als ihr. 

Neben diesen drei Voraussetzungen fiir 
eine brauchbare Selbstauskunft ist ein 
weiteres Charakteristikum von Person- 
lichkeitsfragebogen ill re Durchschaubar- 
keit. Jugendliche und Erwachsene mit 
einem gewissen psychologischen Reflexi- 
onsniveau werden bei vielen Fragen aus 
Persbnlichkeitsfragebbgen durchaus rich- 
tig raten, auf welche Personeneigen- 
schaften aus der Antwort geschlossen 
werden soli. 

Diese Durchschaubarkeit beinhaltet eine 
leichte Verfalschbarkeit im Sinne einer 
gezielten Beeinflussung des gesamten 
Testresultates. Im Gegensatz zu Leistungs- 
tests, kann diese Beeinflussung in beide 
Richtungen gehen, z.B. kann man sich 
aufgrund der Durchschaubarkeit bewubt 
neurotischer oder weniger neurotisch dar- 
stellen. 

2.2.2.3 Objektive Personlichkeits- 
tests 

Dieser Begriff geht auf den Personlich- 
keitsforscher R.B. Cattell zuriick. Dieser 
forderte als Erganzung und Kontrolle von 
Persbnlichkeitsfragebbgen noch eine zwei- 
te Art von Tests, die er objektive Person- 
lichkeitstests nannte. Sie sind in dem 
Sinne objektiv, als eine Verfalschung 



wegen Undurchschaubarkeit ausgeschlos- 
sen sein soil. 

Schmidt (1975, S. 19) definiert objektive 
Tests folgendermaben: 

‘Objektive Tests zur Messung der 
Personlichkeit und Motivation sind 
Vetfahren, die unmittelbar das Ver- 
halten elites Individuums in einer 
standardisierten Situation erfassen, 
ohne dafi diese sich in der Regel 
selbst beurteilen mufi. Die Vetfahren 
sollen fur den Probanclen keine mit 
der Mefiintention ubereinstimmende 
Augenscheinvaliditdt haben. ' 

Unter Augenscheinvaliditdt versteht man 
die Eigenschaft von Tests, dab man ihnen 
'ansicht' was sie messen sollen und wel- 
ches Verhalten man damit vorhersagen 
mochte. 

Die Idee objektiver Personlichkeitstests 
besteht also darin, aus Itemantworten auf 
Personeneigenschaften zu schlieben, die 
gai - nicht Gegenstand der Fragen waren. 
Z.B. soli die befragte Person in einem 
Untertest der Cattefl’schen Testbatterie 
(Schmidt et al. 1994) beurteilen, ob jede 
Feststellung einer vorgegebenen Liste 
‘sinnvoll ist und einen guten Eindruck 
hinterlabt’ oder aber ‘sinnlos ist und ein 
schlechtes Licht auf den wirft, der sie 
benutzt’. Es folgt dann eine Reihe 
klischeehafter Feststellungen, wie 

Frauen konnen sich nie entscheiden 
Jeder Mensch braucht Freunde 
Geld ist der Grund vieler Bosheit 
Wer Geld hat, hat auch Freunde. ..u.s.w. 

Wahrend der Befragte gemab der Testin- 
struktion nach Sinn und Unsinn jeder ein- 
zelnen Feststellung ringt, wird am Ende 
nur ausgezahlt, wieviele Feststellungen 
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man fur sinnvoll halt - als MaB fur die 
‘Hausbackenheit’ des Befragten. 

Auch viele der wochentlich neu konstru- 
ierten ‘Psyche-Tests’ in Illustrierten sind 
von diesem Typ, etwa wenn aus der 
Beantwortung der Frage 

Sind Sie eigentlich ‘wetterfuhlig’ ? 

darauf geschlossen wird, wie ‘riicksichts- 
volT die befragte Person ist. Diese Tests 
sind ein gutes Beispiel dafiir, daB ein Test 
zwar das Giitekriterium der Objektivitat 
(oder einen Aspekt davon) erfiillen kann, 
aber trotzdem keine groBe Validitat be- 
sitzt. 

Das Konzept objektiver Tests setzt eine 
nicht-triviale Theorie iiber den Zusam- 
menhang von unverfanglich erfragbaren 
Verhaltensaspekten und relev anten Per- 
sonlichkeitseigenschaften voraus. Viel- 
leicht liegt es damn, daB die Erfassung 
von Personlichkeitseigenschaften mit sol- 
chen Tests im akademischen Bereich der- 
zeit kaum eine Rolle spielt. Es ist offenbar 
sehr schwer, von Verhaltensaspekten zu- 
verlassig auf Persdnliclikeitseigenschaften 
zu schlieBen, beziiglich derer die Fragen 
keine Augenscheinvaliditat besitzen. 

Trotzdem stellen diese Tests wohl am 
ehesten das dar, was der Laie von psycho- 
logischen Tests erwartet: auf geheimnis- 
volle Weise aus ein paar banalen Antwor- 
ten auf tiefliegende Strukturen der Per- 
sdnlichkeit schlieBen zu konnen. 



2.2.2.4 Projektive Tests 

Ein ganz anderer Weg, zu objektiven Test- 
resultaten zu gelangen, wird mit den 
sogenannten projektiven Verfahren began- 
gen. Der Name leitet sich aus der psy- 
choanalytischen Theorie ab, in der mit 
Projektion ein Abwehrmechanismus be- 
zeichnet wird, mit Hilfe dessen sich das 
Ich gegen angstauslosende oder verbotene 
Triebregungen wehrt. Die Abwehr besteht 
darin, daB diese inneren Regungen und 
Impulse nach auBen, meistens auf andere 
Personen projiziert werden und dadurch 
nicht mehr mit den Normen des eigenen 
Uber-ich in Konflikt geraten konnen. 

Bei projektiven Tests wird angenommen, 
daB dieser Vorgang auch in der Situation 
einer Testvorgabe stattfmden kann und 
man somit iiber die Itemantworten zu Er- 
kenntnissen iiber Personlichkeitseigen- 
schaften gelangt, die der Person selbst gar 
nicht bewuBt sind oder in einem direkten 
Fragebogen nicht geauBert (‘zugegeben’) 
wiirden. 

Um den Vorgang der Projektion zu er- 
moglichen, stellen die Items Stimuli dar 
(das sind auslosende Reize), welche mog- 
lichst unstrukturiert sein miissen. Sie 
miissen einerseits innere Vorgange stimu- 
lieren, die dann zum Inhalt einer Projek- 
tion werden konnen. Andererseits muB das 
Item so vage (unstrukturiert) sein, daB 
man in diesen Stimulus auch Eigenes 
‘hineinlesen’ oder projizieren kann. Be- 
ziiglich dieser Eigenschaften unterschei- 
den sich projektive Verfahren graduell. 
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Abbildung 7: Ein Item aus dem Rorschach Test 
(Rorschach, 1954) 

Wahrend die Items des Rorschach Tests 
nur aus einem (spiegelsymmetrischen) 
Tintenklecks bestehen, sind die Bilder des 
thematischen Apperzeptionstests (TAT) 
photographisch genau, jedoch beziiglich 
der Interpretation ill res Inhaltes offen und 
unstrukturiert. 




Abbildung 8: Ein Item aus dem thematischen 
Apperzeptionstests (TAT; Revers & Taeber 1968) 

Unstrukturiert sind die Items des Rosen- 
zweig Picture-Frustration Tests dadurch, 
daB es sich urn sehr sparsame Strich- 
zeichnungen handelt, die keine Ahnlich- 



keit rnit existierenden Personen haben. 
Dadurch wird es der befragten Person er- 
leichtert, sich selbst rnit der antwortenden 
Person in der Zeichnung zu identifizieren. 




Abbildung 9: Ein Item aus dem Picture- 
Frustration Test (Hormann & Moog 1957) 

Das Konzept von projektiven Tests ist 
auch uber den engen psychoanalytischen 
Begriff der Projektion hinaus sinnvoll. So 
ist es eine unbestreitbare Tatsache, daB 
man leicht ‘von sich auf andere schlieBt’ 
oder Dinge assoziiert, die dem eigenen 
Erleben und Denken entspringen. 

Projektive Tests sind irnmer dann in Be- 
tracht zu ziehen, wenn Personlichkeitsei- 
genschaften gemessen werden sollen, die 
rnit einer starken positiven oder negativen 
Wertung verknupft sind, sei diese gesell- 
schaftlicher oder individueller Natur. Bei- 
spiele sind etwa die Messung der Ag- 
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gressivitat, die man ungem zugibt oder 
auch nur wahrhabcn will, oder die Mes- 
sung des Leistungsmotivs, iiber dessen 
Starke man sich oft nicht im Klaren ist, 
und dessen hohe Auspragung in unserer 
Gesellschaft eine positive Norm darstellt. 

Die Starke der Tendenz, mit der sich eine 
Person an der gesellschaftlichen oder so- 
zialen Norm orientiert, nennt man die Va- 
riable der sozialen Erwiinschtheit (social 
desirability). Die soziale Erwiinschtheit 
bceinfl uBt potentiell jedes Ergebnis einer 
direkten Befragung. Projektive Verfahren 
konnen als Versuch aufgefaBt werden, den 
EinfluB der sozialen Erwiinschtheit auf das 
Testergebnis dadurch moglichst gering zu 
halten, daB der Befragte in der Itemant- 
wort nicht iiber sich selbst sprechen muB 
(und sich sornit sozial erwiinscht darstellt), 
sondern iiber einen abstrakten Stimulus 
oder eine fremde Person. 

2.2.2.5 Situationsfragebogen 

Eine andere Art von Projektion stellt das 
‘Sich-hinein-versetzen’ in eine beschrie- 
bene Situation dar. Hier werden nicht in- 
nere Triebregungen nach auBen projiziert, 
sondem die eigene Person versetzt sich in 
der Vorstellung in eine hypothetische Si- 
tuation. Sodann wird das Erleben und Ver- 
halten in dieser Situation erfragt. Derartige 
Tests heiBen Situationsfragebogen. 

Ein Beispiel ist etwa das Angstbewalti- 
gungsinventar (ABE Krohne et al. 1989), 
in dem die Person aufgefordert wird, sich 
folgende Situation vorzustellen: 

Stellen Sie sich vor, Sie fahren als 
Beifahrer mit einem ojfensichtlich 
ungeiibten Autofahrer. Es herrschen 
durch Schnee und Glatteis ungiinsti- 
ge Strafienverhdltnisse. 



Die Person hat dann fur 18 Verhaltensbe- 
schreibungen anzugeben, ob diese fur sie 
in der Situation zutreffend sind oder nicht, 
z.B.: 

- denke ich: ‘Mir bleibt auch nichts 
erspart. ’ 

- sage ich mir: ‘Es wird schon 

nichts Schlimmes passieren.’ 
schaue ich einfach nicht mehr auf 
die Fahrbahn, sondern denke an 
etwas anderes oder betraclite die 
Gegend. 

Verlangt wird von der befragten Person - 
wie bei Personlichkeitsfragebogen - eine 
Selbstauskunft, jedoch ohne die Voraus- 
setzungen der Metakognition und des so- 
zialen MaBstabs (s.o. Kap. 2.2.22). Vor- 
aussetzung ist im allgemeinen nur die Er- 
innerung an ahnliche Situationen und die 
Fahigkeit, das Wissen aus dieser Erinne- 
rung heraus auf die vorgegebene, hypo- 
thetische Situation zu ubertragen. Natiir- 
lich ist das auch ein Stuck ‘Selbstkenntnis’, 
jedoch wird von der befragten Person 
keine Einschatzung der eigenen Person 
verlangt, sondem Auskunft iiber potentiell 
beobachtbares Verhalten und potentielles 
Erleben. 

Die Voraussetzung der Offenbarungsbe- 
reitschaft und die Moglichkeit einer Be- 
einflussung durch die soziale Erwunscht- 
heit ist bei Situationsfragebogen genauso 
gegeben, wie bei Personlichkeitsfrage- 
bogen. 

2.2.2.6 Einstellungstests 

Die Messung von Einstellungen (attitudes) 
ist ein sehr altes Kapitel in der Geschichte 
der Messung psychischer Merkmale. Im 
Unterschied zu generellen Personlich- 
keitseigenschaften sind Einstellungen auf 
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ein bestimmtes Objekt gerichtet, das Ein- 
stellungsobjekt. Das Einstellungsobjekt 
muB nicht eine Person oder Sache sein, 
sondern kann auch ein abstraktes Prinzip, 
ein Paragraph oder Ahnliches sein. Bei- 
spiele sind etwa: 

Einstellung gegeniiber Kernkraft- 
werken 

Einstellung zur Abtreibung 
Einstellung gegeniiber Auslbndern 
Einstellung zum Recht auf Freie Mei- 
nungsdufierung 

Ublicherweise wird bei Einstellungen eine 
Pro-Contra-Dimension oder eine Zustim- 
mungs-Ablehnungs-Dimension gemessen. 
Dies geschieht in der Regel dadurch, dab 
verschiedene Statements iiber das Einstel- 
lungsobjekt vorgegeben werden und die 
befragten Personen angeben sollen, inwie- 
weit sie der jeweiligen Aussage zustim- 
men oder sie ablehnen. Diese Aussagen 
stellen die Items des Tests dar und jede 
Aussage (jedes Item) druckt eine be- 
stimmte Position auf der zu messenden 
Pro-Contra-Dimension aus. 

In einem Fragebogen zur Einstellung ge- 
geniiber der Nutzung von Kernenergie 
markieren z.B. die drei folgenden Items 
unterschiedliche Positionen auf der zu 
messenden Einstellungsdimension: 

- Kernkraftwerke sichern langfri- 
stig unsere Energieversorgung. 

- Die derzeit in Betrieb befindli- 

chen Kernkraftwerke sollten in- 
nerhalb der ndchsten 10 Jahre 
abgeschaltet werden. 

- Kernkraftwerke stellen eine Tech- 

nologie dar, die gegeniiber den 
nachfolgenden Generationen un- 
Verantwortbar ist. 



Wahrend das erste Item am positiven Ende 
der Einstellungsdimension liegt, hat das 
zweite Item eine mittlere Position und das 
dritte Item liegt am negativen Ende. Die 
Zustimmung zu der jeweiligen Aussage 
kann irn einfachsten Fall mit einer ja-nein 
Antwort erfabt werden, wird aber in der 
Regel mit einer mehrstufigen Ratingskala 
erfabt (vgl. Kap. 2.3. 1.3), z.B.: 

- stimme vbllig zu 

- stimme eher zu 

lehne eher ab 

- lehne vollig ab 

Uber den Zusammenhang von Antwort- 
verhalten und latenter Variable gibt es 
zwei unterschiedliche Annahmen, die je- 
weils auch unterschiedliche Testmodelle 
fur die Testauswertung erforderhch ma- 
chen. Sie werden nach den beiden ‘Pio- 
nieren’ der Einstellungsmessung, L.L. 
Thurstone und R. Likert benannt. 



Die Annahme der Thurstone-Skalie- 
rung 

Thurstone (Thurstone & Chave 1929) hat 
eine Methode zur Einstellungsmessung 
angewendet, deren zentrale Annahme 
dar in besteht, dab die Personen denjenigen 
Items zustimmen, die ihrer eigenen Po- 
sition auf der Einstellungsdimension am 
ndchsten liegen. Items, die von der eige- 
nen Position weiter entfemt liegen, wer- 
den dagegen abgelehnt. In der folgenden 
Graphik wiirde also Person 1 den Items 1 
und 2 zustimmen und die Items 3 und 4 
ablehnen. 



Person 1 Person 2 

4/ 



Einstellungs- 



Item I Item 2 Item 3 



Person 2 wiirde den Items 2 und 3 zu- 
stimmen und die Items 1 und 4 ablehnen. 
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Diese Annahme ist zwar sehr plausibel, 
hat aber fiir die Testauswertung die 
schwerwiegende Konsequenz, dab man die 
Positionen der Items genau kennen muB, 
um zu MeBwerten fiir die Personen zu ge- 
langen. 



Die Annahme der Likert-Skalierung 

Likert (1932) hat eine andere Methode der 
Einstellungsmessung verwendet, bei der 
man nicht die Position jedes einzelnen 
Items kennen muB. Sie basiert vielmehr 
auf der Annahme, daB jedes Item entweder 
eine positive oder eine negative Haltung 
gegenuber dem Einstellungsobjekt aus- 
driickt. Eine Zustimmung zu einem posi- 
tiven Item kann dann genauso gewertet 
werden wie eine Ablehnung eines negati- 
ven Items. 

Die grundlegende Annahme iiber das 
Antwortverhalten besagt, daB eine Person 
alien positiv formulierten Items umso 
me hr zustimmt, und alle negativ formu- 
lierte Items umso mehr ablehnt, je positi- 
ver ihre Einstellung zu dem betreffenden 
Objekt ist. Handelt es sich in dem folgen- 
den Beispiel um vier positiv formulierte 
Items, so wiirde nach dieser Annahme die 
Person 1 dem ersten Item zustinmien, die 
anderen drei eher ablehnen. 

Person 1 Person 2 

q, q, Einstellungs- 

Itern 1 Item 2 Item 3 Item 4 dimension 

Die Person 2 stimmt den Items 1 und 2 zu, 
wobei die Zustimmung zu Item 1 deut- 
licher ausfallt (‘stimme vollig zu’), weil die 
Einstellung der Person noch positiver ist. 
als es das erste Item ausdriickt. Die Zu- 
stimmung zu einem Item sinkt also nicht 
mit zunehmender Distanz zu der Position 
des Items (wie bei der Thurstone-Ska- 



lierung), sondern sie steigt mit zuneh- 
mender Distanz in positiver Richtung. 

Auch diese Annahme ist fiir viele Ein- 
stellungstests sehr plausibel. Sie hat den 
Vorteil, daB die Testauswertung ver- 
gleichsweise unkompliziert ist, sofern alle 
Items eindeutig positiv oder negativ for- 
muliert sind. 



Welche der beiden Annahmen iiber das 
Antwortverhalten zutreffend ist, hiingt 
weitgehend auch von der Fomiulierung 
der Items ab. In einem Test zur Messung 
der Einstellung zum Umweltschutz lost 
das folgende Item sicherlich umso mehr 
Zustimmung aus, je positiver die Einstel- 
lung ist: 

Jecler Burger sollte seinen privaten 
Energieverbrauch so weit wie mog- 
lich reduzieren. 

Dagegen wird die folgende Formulierung 
vermutlich sowohl von Personen abge- 
lehnt, die eine geringe Auspriigung der 
Einstellung haben, als auch von Personen, 
die weitaus drastischere MaBnahmen zur 
Erhaltung der Umwelt fiir notwendig hal- 
ten: 

In der Reduktion des privaten Ener- 
gieverbrauchs liegt der Schliissel 
zum Schutz der Umwelt. 

Bei der Konstruktion eines Einstellungs- 
tests muB man sich friihzeitig fiir eine der 
beiden Annahmen entscheiden und die 
Items entsprechend formulieren. Die mei- 
sten der in Kapitel 3 behandelten quan- 
titativen Testmodelle eignen sich nur zur 
Analyse von Items, fiir die die Annahme 
der Likert-Skalierung gilt. Modelle fiir 
Einstellungstests, die nach der Thurstone- 
Methode konstruiert sind, werden in Kapi- 
tel 3. 1.1.3 behandelt. Allerdings eignen 
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sich auch Testmodelle niit einer katego- 
rialen Personenvariable fur die Auswer- 
tung von Einstellungstests. Fiir die An- 
wendung dieser Testmodelle spielt es 
keine Rolle, ob die Itemantworten nach 
Thurstone oder nach Likert zustandege- 
kommen sind. 

Dariiber hinaus ist es bei der Anwendung 
klassifizierender Testmodelle auch nicht 
erforderlich, von einer Einstellungsdimen- 
sion auszugehen. Individuelle Unterschie- 
de in der Einstellung gegeniiber einern 
Einstellungsobjekt konnen sich auch in 
Form von qualitativen Unterschieden 
auBern. Man spricht dann auch von der 
Einstellungsstruktur. Damit ist gemeint, 
daB sich Personen darin unterscheiden, bei 
welchen Items sie irn Sinne einer positiven 
Einstellung antworten und bei welchen im 
Sinne einer negativen Einstellung. In die- 
sem Fall sind weder die Personen noch 
die Items auf einer Dimension anordenbar, 
wie das zuvor stets vorausgesetzt wurde. 

22 . 2.1 Motivations- und Interes- 
sensfragebogen 

Interessen sind wie Motivationen Eigen- 
schaften, die eine Antriebsqualitat fiir das 
Handeln von Personen haben, also gleich- 
sam Motor des Verhaltens sind. Frage- 
bogen, die diese Eigenschaften direkt er- 
fassen sollen, bestehen oft aus Fragen der 
folgenden Art: 

Was machst Du am liebsten 

Was wiirdest Du geme tun.... 

Wozu hast Du Lust..... 

Dieser Typ von Tests hat vieles gemein- 
sam mit den bisher beschriebenen Testar- 
ten. So wird eine Selbstauskunft tiber 
innere Zustdnde oder Vorgdnge erfragt, 
die vergleichbare Voraussetzungen erfor- 



dert und Verfalschungsgefahren birgt, wie 
Personlichkeitsfragebogen. Interessen sind 
wie Einstellungen objektbezogen, d.h. man 
hat ein Interesse an etwas oder fiir etwas, 
und man druckt sein Interesse wie seine 
Meinung gerne graduell abgestuft aus 
(z.B. ‘mein Interesse daran ist eher ge- 
ring’). 

Ein besonderer Aspekt von Interessensfra- 
gebogen besteht jedoch darin, daB Interes- 
sen zukunftsorientiert sind und in der 
Regel auch zukunftsbezogen erfaBt wer- 
den. Damit ist gemeint, daB sich die Ta- 
tigkeit, auf die sich das Interesse bezieht, 
erst in der Zukunft ausgefiihrt wird: ‘..was 
mochtest Du (...gleich... spater... mor- 
gen...) tun?‘. 

Besonders deutlich wird die Zukunftsori- 
entierung, wenn man etwa Schiilerinteres- 
sen erhebt, um den spateren Unterricht fiir 
diese Schuler zu planen, oder Berufsinter- 
essen, um die Probanden beziiglich ihrer 
Berufswahl zu beraten. Hier bezieht sich 
die Itemantwort auf eine innere Vorliebe 
fiir etwas, was der Befragte noch gar nicht 
kennt und kennen kann, weil es ihm noch 
bevorsteht. 

Dem tragt man bei der Testkonstruktion 
dadurch Rechnung, daB entweder die ein- 
zelnen Items aus einem langeren Text 
bestehen oder mehreren Items ein gemein- 
samer Text vorangeht, in dem das Interes- 
sensobjekt beschrieben ist. Diese Be- 
schreibung dient dann als Stimulus, der 
das Interesse ‘wecken’ oder zumindest 
bewuBt machen soli. 

Die Itemantwort kann dann - wie bei 
einem Einstellungstest - in einem Urteil 
auf einer melirstu figen Ratingskala be- 
stehen, z.B. 

kein mafiiges deutliches starkes Interesse 
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Das Problem dabei ist, dab die befragten 
Personen einen vergleichbaren Beurtei- 
lungsmafistab haben sollten, namlich was 
‘mabiges’, ‘deutliches’ und ‘starkes’ In- 
teresse ist. Man verlabt sich hier auf die 
intersubjektive Giiltigkeit der Sprache, die 
bei solchen differenzierten Urteilen oft 
fraglich ist. 

Die Starke des Interesses mub nicht un- 
bedingt auf einer Ratingskala eingestuft 
werden. Es kann z.B. auch eine Prdferenz- 
wahl (Praferenz = Bevorzugung) aus vor- 
gegebenen Alternativen erfolgen, die als 
Ausdruck des relativen Interesses gewertet 
wird, z.B.: 

Was wtirden Sie jetzt am liebsten lesen: 

- das nachste Kapitel iiber Ver- 
haltensfragebogen 

- etwas iiber Ergebnisse der Interes- 
sensforsclumg 

- etwas daruber, wie man Interes- 
senstests mit Prdferenzwahlen aus- 
wertet 

- eine Ubersicht, welche Interessens- 
tests schon entwickelt und erprobt 
worden sind 

Wdhlen Sie eine Alternative aus! 

Der Nachteil von solchen Praferenzwahlen 
besteht darin, dab die Itemantwort nur den 
Schlub zulabt, dab die gewahlte Alterna- 
tive relativ zu den anderen Alternativen 
als interessant gilt. Es konnen sornit nur 
relative Interessensauspragungen gemes- 
sen werden und das Testergebnis hangt 
vollig von den angebotenen Vergleichsal- 
ternativen ab. Die generelle Problematik 
von Antwortformaten mit nominal-skalier- 
ten Antwortvariablen wird in Kapitel 3.2 
behandelt. 



2.2.2.8 Verhaltensfragebogen 

Aufgrund der Probleme, die mit der Ein- 
schatzung und Beurteilung eigener innerer 
Zustande und Vorgange verbunden sind, 
bietet sich als Alternative an, statt innerer 
Zustande das tatsdchliche Verhalten der 
Personen mit Fragebogen zu erfassen. Es 
hat einigen Reiz, sich nicht mit Intro- 
spektion, sozialen Vergleichen, Beurtei- 
lungsmabstaben und Praferenzurteilen aus- 
einandersetzen zu miissen, sondern den 
Probanden schlicht zu fragen: 

Was hast Du getan ? 

Prominentes Beispiel ist etwa die Erfas- 
sung des Umweltbewubtseins, wo man 
einsehen mubte, dab Selbsturteile iiber 
umweltrelevante Einstellungen, Verant- 
wo rt u ngsz u se h re i b n nge n und sogar Hand- 
lungsabsichten nicht das tatsachliche Ver- 
halten irn Umweltbereich vorherzusagen 
gestatten. 

Mit Verhaltensfragebogen mochte man 
erfassen, was die befragten Personen 
tatsachlich in der Vergangenheit getan 
haben. Im Gegensatz zu Situationsfrage- 
bogen ist selbst die Ubertragung auf hy- 
pothetische Situationen ausgeschlossen. 

Voraussetzungen fiir die Interpretierbar- 
keit der Itemantworten sind ein hinrei- 
chend zuverlassiges Geddchtnis der Pro- 
banden fiir das eigene Verhalten und die 
Bereitschaft, ehrlich Auskunft zu geben. 
Die soziale Erwiinschtheit kann natiirlich 
auch die Ergebnisse eines Verhaltensfra- 
gebogens beeinflussen, jedoch liebe sich 
diese Beeinflussung nur iiber eine bewubte 
Liige realisieren. Hier ist die Hemm- 
schwelle sicherlich hoher, als bei der 
Selbsteinschatzung einer Personlichkeits- 
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eigenschaft, welche sich leichter ‘verzer- 
ren’ laBt. 

Diese Ehrlichkeit vorausgesetzt, kann das 
Antwortverhalten im Test gleichgesetzt 
werden mit deni tatsachlichen Verhalten. 
Damit ist man aber nur scheinbar ‘dichter’ 
an der zu messenden Personlichkeitseigen- 
schaft dran. Das Problem beim Schlufi 
vom tatsachlichen Verhalten auf eine 
Personlichkeitseigenschaft besteht darin, 
daB das gezeigte Verhalten auBer von der 
vermuteten Personlichkeitseigenschaft von 
einer Vielzahl von situationalen Bedin- 
gungen abhangt. 

So kann man z.B. keine Gelegenheit ge- 
habt haben, ein Verhalten zu zeigen, daran 
gehindert worden sein, von anderen veran- 
laBt worden sein, es zu zeigen, oder es aus 
ganz anderen Griinden ‘zufallig’ gezeigt 
haben. Kurzum, der SchluB von Verhalten 
unter Realbedingungen auf Personenei- 
genschaften ist extrem fehlerbehuftet. Um 
diesen Fehler klein zu halten, sollte man 
nach solchen Verhaltensweisen fragen, bei 
denen die situationalen Bedingungen fur 
alle Befragten moglichst gleich sind. Dies 
kann wiederum die Aussagekraft beziig- 
lich der zu messenden Eigenschaft ein- 
schranken. 

Sieht man von der Beeintrachtigung durch 
situationale Faktoren einmal ab, setzt der 
SchluB vom Testverhalten (= erfragtes 
Verhalten) auf Personeneigenschaften 
Annahmen dariiber voraus, unter welchen 
Eigenschaftsauspragungen welches Ver- 
halten zu erwarten ist. Im Falle einer 
quantitative n Eigenschaft kann dies - wie 
bei Einstellungstests - dariiber geschehen, 
daB die erfragten Verhaltensweisen unter- 
schiedliche Punkte auf der Eigenschafts- 
dimension markieren. Auch hier gibt es 
wieder die beiden Alternativen, die den 



Annahmen der Thurstone- und der Likert- 
Skaliemng analog sind (vgl. Kap. 2.2.2.6): 

Erstens, das Verhalten tritt nur dann auf, 
wenn die Eigenschaftsauspragung der Per- 
son in der Ntihe der Position der Verhal- 
tensweise ist. 

Zweitens, das Verhalten wird von einer 
bestimmten Eigenschaftsauspragung an 
aufwdrts gezeigt. 



Beispiel 

In einem Fragebogen zum Umwelthandeln 
wird gefragt: 

- haben Sie in letzter Zeit Geld fiir eine 
Umweltschutzorganisation gespendet? 

- sind Sie Mitglied in einer Umwelt- 

schutzorganisation ? 

- arbeiten Sie in einer Umweltschutz- 

organisation mit? 

Die erste Verhaltensweise zeigt sich im 
Sinne der ersten, oben genannten Alterna- 
tive vermutlich nur bei einer mittleren 
Handlungsbereitschaft, aber nicht bei einer 
sehr schwachen oder sein - starken Hand- 
lungsbereitschaft. Bei einer sehr starken 
Handlungsbereitschaft spendet man nicht 
mehr, sondern arbeitet selbst mit. 

Das zweite Item wird vermutlich im Sinne 
der zweiten Alternative beantwortet, da 
man auch bei einer aktiven Mitarbeit in 
einer Umweltorganisation Mitglied in die- 
ser Organisation ist. 



In Verhaltensfragebogen, die sein - viele 
Verhaltensweisen abfragen, ist die erste 
Annahme iiber das Antwortverhalten sehr 
viel realistischer, da auch von Personen 
mit holier Eigenschaftsauspragung (Hand- 
lungsbereitschaft) nicht erwartet werden 
kann, daB sie alle Verhaltensweisen zei- 
gen. Dafiir reicht oft die zur Verfugung 
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stehende Zeit nicht aus und auch bei einer 
starken Handlungsbereitschaft werden Ak- 
zente auf bestimmte Aktivitaten gesetzt. 
Entsprechendes gilt z.B. auch fiir sog. 
Symptomlisten, bei denen ebenfalls nicht 
erwartet werden kann, dab Patienten rnit 
einer starken Auspragung der Storung alle 
Symptome eines Krankheitsbildes zeigen. 

Fiir die Testauswertung bedeutet dies, dab 
quantitative Testmodelle mit monoton 
steigenden Itemfunktionen (s. Kap. 3) 
nicht geeignet sind, die Handlungsbereit- 
schaft zu messen. Testmodelle mit ka- 
tegorialer Personenvariable sind hier sehr 
viel unproblematischer, da sich bei diesen 
Modellen die Personen hinsichthch ill res 
Musters an Verhaltensweisen unterschei- 
den und nicht nur hinsichthch der Anzahl 
an Verhaltensweisen. 

2.2.3 Definition des Itemuni- 
versums 

Aus der inhaltlichen Theorie iiber die zu 
messende Personeneigenschaft sollte auch 
ableitbar sein, in welchen Situationen sich 
ein Verhalten aubert, das Riickschliisse 
iiber die Auspragung der Personeneigen- 
schaft zulabt. Diese Beschreibung einer 
Klasse von Situationen, in denen sich ein 
bestimmtes Verhalten zeigen kann, und 
einer Klasse von Verhaltensweisen, die 
Riickschliisse auf die Personeneigenschaft 
zulassen, mub dann transformiert werden 
in eine Beschreibung des Itemuniversums. 



Beispiel 

Bei der Messung der Fahigkeit zum analo- 
gen Schlieben ist die Menge der Situatio- 
nen durch alle Problemstellungen defi- 
niert, die die formale Struktur 

A : B = C : ? 



(A verhiilt sich zu B wie C zu ?) 

haben. Die Klasse der Verhaltensweisen 
unterscheidet lediglich zwei Arten von 
Verhalten, namlich sinn voile und sinnlose 
Erganzungen der Analogie. Sinnvolle sind 
dadurch definiert, dab das fiir das Fra- 
gezeichen gefundene Element in derselben 
Relation zu C steht wie das Element B zu 
A. 



Diese Situations- und Verhaltensbeschrei- 
bungen fiir die Fahigkeit des analogen 
Schliebens sind natiirhch noch keine De- 
finition eines Itemuniversums. Hier miis- 
sen irn Sinne einer operationalen Definiti- 
on (S.O.) pragmatische und formale Festle- 
gungen getroffen werden, die allerdings 
die Giiltigkeit des Tests fiir die in der 
Theorie behandelte Personlichkeitseigen- 
schaft einschranken. 

So liebe sich im vorliegenden Beispiel das 
Itemuniversum als die Menge aller 
deutschsprachigen Drei-Wort-Analogien 
definieren, bei denen es ein viertes Wort 
geben mub, das zu C in derselben Relation 
steht wie B zu A. Damit sind alle nicht- 
sprachlichen und fremdsprachlichen Ana- 
logien ausgeschlossen, sowie solche Ana- 
logien, die mehrere Worte pro Element 
des Analogieschlusses benotigen. 

Bei der Definition des Itemuniversums hat 
man sich davon leiten zu lassen, welche 
Ail von Items homogen genug zu sein 
scheint, urn die Messung der gewiinschten 
Personlichkeitseigenschaft zu ermogli- 
chen. Eine solche Homogenitdtsvermutung 
ist natiirhch eine sehr subjektive Angele- 
genheit und resultiert gewohnlich aus ei- 
ner Mischung von Erfahrung mit Test- 
konstmktionen und einer weiteren Elabo- 
ration der Theorie iiber das zu messende 
Personlichkeitsmerkmal. 
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Die Definition eines Itemuniversums ist 
deswegen von Bedeutung, weil ein Test- 
ergebnis nicht nur etwas uber die Beant- 
wortung der im Test enthaltenen Items 
aussagen will, sondern eine generalisie- 
rende Aussage uber das Antwortverhalten 
bezuglich einer ganzen Klasse von Situa- 
tionen (Items) eimoglichen soil. Das Item- 
Universum definiert den Geltungsbereich 
des Testergebnisses. 

2.2.4 Ziehung einer Itemstich- 
probe 

Wenn es um die Ziehung von Stichproben 
geht, denkt man zunachst an eine Zu- 
fallsstichprobe, da deren Ergebnisse am 
ehesten generalisiert werden diirfen. Die 
Ziehung einer Zufallsstichprobe aus der 
Menge aller moglichen Items (Itemuni- 
versum) ist in der Regel weder moglich 
noch sinnvoll. 

Moglich ist eine Zufallsziehung oft des- 
wegen nicht, weil das Itemuniversum zwar 
theoretisch definiert werden kann, jedoch 
nicht in einem physischen Sinne existiert 
wie etwa die Population eines Landes. Wo 
keine Grundmenge existiert, ist es tech- 
nisch zumindest schwierig, eine Stichpro- 
be zu ziehen. 

Audi sinnvoll ware eine Zufallsstichprobe 
nicht, da man einen Test im allgemeinen 
fur eine bestimmte Adressatengruppe kon- 
struiert und man eine Itemauswahl treffen 
sollte, die speziell zu dieser Adressaten- 
gruppe ‘paBt’. Das Prinzip der Passung 
von Personenstichprobe und Itemstich- 
probe zielt in erster Linie auf die Maxi- 
mierung der Varianz der Antwortva- 
riablen ab. Das bedeutet, daB solche Items 
ausgewahlt werden sollten, von denen 
erwartet wird, daB es eine starke Streuung 



der Itemantworten in der betreffenden Per- 
sonenstichprobe gibt. 

Items, auf die samtliche befragten Perso- 
nen einer Stichprobe dieselbe Antwort ge- 
ben, bei denen also die Varianz der Item- 
antwort 0 betragt, sind schlicht wertlos. Es 
laBt sich im Rahmen von vielen Testmo- 
dellen zeigen, daB tatsachlich diejenigen 
Items die meiste Information zur Messung 
eines Personenmerkmals beitragen, bei 
denen die Variation der Itemantworten am 
groBten ist (s. Kap. 6.1). 

Im Falle von Leistungstestitems, bei de- 
nen nur zwischen einer korrekten und 
einer falschen Antwort unterschieden 
wird, ist die Varianz der Itemantworten 
dann maximal, wenn das Item in der be- 
treffenden Stichprobe eine relative Lo- 
sungshdufigkeit von 50 % hat. Dies laBt 
sich direkt aus der Formel fur die Varianz 
einer 0- 1 -Variable ablesen. Diese lautet 
namlich 

Var(X) = P (1-p), 

wenn X nur die Werte 0 oder 1 annimmt 
und p die Wahrscheinlichkeit bezeichnet, 
daB X den Wert 1 annimmt, also p(X =1). 



Die folgende Tabelle zeigt, daB diese Va- 
rianz mit einem Wert von 0.25 bei p = 0.5 
maximal ist. 



P(X=1) 


|.l 


.2 


.3 .4 .5 .6 .7 .8 .9 


Var (X) 


.09 


.16 


.21 .24 .25 .24 .21 .16 .09 



Dieses Prinzip der Passung von Item- und 
Personenstichprobe gilt jedoch nicht nur 
fiir Leistungstests und auch nicht nur fur 
die Messung von quantitativen Personen- 
variablen. Will man etwa mit Hilfe eines 
V erhaltensfragebogens umweltpolitisch 
aktive Personen von umweltpolitisch nicht 
aktiven Personen unterscheiden (eine 
zweikategorielle Personenvariable), so 
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ware es im wall rs ten Sinne des Wortes 
'unpassend', relativ mittellose Gymnasia- 
sten zu fragen, ob sie schon einmal einer 
Umweltschutzorganisation einen groBeren 
Geldbetrag gespendet haben. 

Neben dem Prinzip der Passung muB auch 
davon ausgegangen werden, daB es ein- 
fach bessere und schlechtere Vertreter des 
Itemuniversums gibt. D.h. keine noch so 
sorgfaltige Definition eines Itemuniver- 
sums wird ausschlieBen konnen, daB es 
Items gibt, bei denen der SchluB vom 
Antwortverhalten auf die Personeneigen- 
schaft zwingend und eindeutig ist, und 
solche, bei denen andere Faktoren als die 
zu messende Personeneigenschaft das 
Antwortverhalten beeinflussen konnen. 
Diese Frage geht jedoch in den Bereich 
der Itemkonstruktion hinein, der in Kapitel 
2.3 behandelt wird. 

Auch iiber die Grofie der Itemstichprobe 
laBt sich wenig Allgemeingiiltiges aussa- 
gen. Generell gilt, daB eine hohere MeB- 
genauigkeit durch eine groBere Itemanzahl 
erreicht werden kann. Andererseits hat 
eine groBere Itemanzahl auch negative 
Auswirkungen wie Ermudung, Redun- 
danz, KonzentrationseinbuBen, Minderung 
der Antwortbereitschaft, Lern- und 
Ubungseffekte, und vieles andere mehr. 

Zusammenfassend sei festgehalten, daB 
die Ziehung einer Itemstichprobe anderen 
Prinzipien folgt und generell sehr viel 
schwieriger ist als etwa die Ziehung einer 
Personenstichprobe aus einer definierten 
Personenpopulation. Dennoch ist es sinn- 
voll, die Menge der in einem Test enthal- 
tenen hems als Stichprobe aus einer hypo- 
thetischen Grundgesamtheit zu betrachten 
und, soweit es geht, auch so zu behandeln, 
da sonst die Frage der Generalisierbarkeit 



des Testergebnisses schwer zu beantwor- 
ten ist. 

2.2.5 Auswahl eines geeigneten 
Testmodells 

Auch die Auswahl eines geeigneten Test- 
modells gehort in die Planungsphase, d.h. 
in die Phase der Konstruktion eines Test- 
instrumentes. Idealerweise sollte auch hier 
die Theorie iiber das jeweilige Personen- 
merkmal so prazise sein, daB die Annah- 
men iiber den Zusammenhang von Ant- 
wortverhalten im Test und latenter Perso- 
nenvariable direkt ableitbar sind. 

Dies ist in der Praxis nicht immer der Fall, 
so daB das umgekehrte Vorgehen gewah It 
wird: Man iiberlegt sich, welche Testmo- 
delle man kennt und welches am ehesten 
zu der Theorie iiber die Personlichkeitsei- 
genschaft paBt. Dieses setzt natiirlich ei- 
nen Oberblick iiber ein moglichst breites 
Spektrum bestehender Testmodelle vor- 
aus. 

Sich in der Phase der Testkonstruktion auf 
ein bestimmtes Testmodell festzulegen, ist 
deswegen von Bedeutung, weil bestimmte 
formale Annahmen des jeweiligen Mo- 
dells auch spezielle Anforderungen an die 
Itemformulierung und Testkonstruktion 
stellen. Z.B. macht es einen Unterschied, 
ob man einen deterministischen Zusam- 
menhang zwischen Antwortverhalten und 
latenter Variable annimmt oder einen pro- 
babilistischen Zusammenhang. 

F in Item wie 

Ich konnte mir vorstellen, einmal gegen 
die Errichtung eines grofitechnologischen 
Projektes Einspruch zu erheben 
(Antwort: ja - nein) 
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steht wohl kaum in einem deterministi- 
schen Zusammenhang mit einer politi- 
schen Einstellungsdimension wie Protest- 
bereitschuf? . Dies konnte bei einem Item 
wie 

Ich habe schon einmal an einer 
Demonstration gegen ein Kernkraftwerk 
teilgenommen (Antwort: ja - nein) 

dagegen eher moglich sein. 

Die Auswahl eines passenden Testmodells 
in der Planungsphase kann auch damit 
enden, daB man zwei oder drei alternative 
Testmodelle zur Auswahl hat und man em- 
pirisch dariiber entscheiden will, welches 
Modell am besten paBt. Dies ist im Sinne 
eines Entscheidungsexperimentes nicht 
nur ein legitimes Vorgehen, sondern kann 
ausgesprochen interessante Fragestellun- 
gen einer empirischen Klamng zufiihren. 

Dies reicht hin bis zu der Grundfragestel- 
lung, ob eine angenommene Personlich- 
keitseigenschaft dimensionaler oder typo- 
logischer Natur ist (ob die Personen- 
variable quantitativ oder kategorial ist). 
Fiir die weitere Konstruktion des Test- 
instrumentes hat dies jedoch die Kon- 
sequenz, daB das Testinstrument mit den 
Annahmen der gewahlten Testmodelle 
kompatibel sein muB. Was das im einzel- 
nen bedeuten kann, wird im Laufe des 
Kapitels 3 deutlich. 



Literatur 

Nahrer, W. (1986) stellt Konzeptionen von 
Leistungstests mit Zeitbegrenzung dar 
(Speed-Tests). Auf die Messung von Per- 
sonlichkeitseigenschaften mit Fragebogen 
gehen Angleitner & Wiggings (1986) ein, 
das Konzept objektiver Personlichkeits- 
tests diskutieren Schmidt (1975) und 
Schmidt & Schwenkmezger (1994). Die 



Problematik projektiver Verfalircn wird 
von Allesch (1991), Asendorpf (1994) und 
Tent (1991) erortert, Westmeyer (1994) 
stellt das Selbstverstandnis der Verhal- 
tensdiagnostik dar. Dawes (1977) behan- 
delt die Grundlagen der Einstellungs- 
messung und Edwards (1957) den EinfluB 
der ‘sozialen Erwunschtheit’ in Personlich- 
keitsfragebogen. Eine Beschreibung der 
Likert- und der Thurstone-Skalierung 
findet sich z.B. bei Roskam (1983) und 
Schnell et al. (1989). 



Ubungsaufgaben 

Sie sollen drei Testinstrumente neu 
entwickeln, und zwar zu den drei Per- 
soneneigenschaften : 

- Freundlichkeit im zwischenmensch- 
lichen Umgang 

- die Eigenschaft, in Personlichkeits- 
fragebogen sozial erwiinscht zu ant- 
worten 

- Priifungsangst. 

Wahlen Sie fiir jedes Instrument eine 
andere Testart aus (begriinden Sie die 
Wahl), be sc h re i ben Sie die Art der Per 
sonenvariable und konstmieren Sie je 
zwei Beispielitems. 

2. Welche Varianten von Speed-Test! 
gibt es? (Vor- und Nachteile) 

3. Welche Voraussetzungen miissen bei 
der Beantwortung von Personlichkeits- 
fragebogen seitens der befragten Per 
son gegeben sein? 

4. Worin unterscheiden sich die Annah- 
men einer Thurstone-Skalierung und 
einer Likert-Skaliemng? Bei welchen 
Testarten kann diese Unterscheidung 
eine Rolle spielen? 
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2.3 Itemkonstruktion 

Nach den Planungsiiberlegungen, die die 
Anlage und Konstruktion des gesamten 
Testinstrumentes betreffen, stellt die For- 
mulierung und Konstruktion der einzelnen 
Items die ‘eigentliche’ Arbeit der Test- 
konstruktion dar. Es ist nicht leicht, etwas 
iiber die Konstruktion von Items zu sagen, 
ohne sich zumindest auf einen bestimmten 
Typ von Tests zu beziehen oder sogar auf 
eine bestimmte zu messende Personenei- 
genschaft. Trotzdem gibt es einige iiber- 
greifende Konstruktionsprinzipien, die bei 
sehr vielen Testarten zu beriicksichtigen 
sind. 

Hierzu soil zunachst dargestellt werden, 
was ein Item iiberhaupt ist und welche Be- 
stundteile es hat. Danach wird in getrenn- 
ten Unterkapiteln auf verschiedene Arden 
von Antwortfoimaten, auf die sprachliche 
Formulierung der Items und auf die Zu- 
sammenstellung des Tests eingegangen. 

Das Item ist die kleinste Beobachtungs- 
einheit in einem Test, sozusagen der ele- 
mentare Baustein, aus dem ein Test aufge- 
baut ist. An einem Item lassen sich zwei 
Komponenten unterscheiden, namlich der 
sogenannte Itemstamm und das Antwort- 
format. 

Der Itemstamm kann aus einer Frage, 
einer Aussage, einem Bild, einer Ge- 
schichte, einer Zeichnung oder einer Re- 
chenaufgabe bestehen und stellt ganz all- 
gemein die Situation dar, in der die Person 
ihr Testverhalten zeigt. 

Demgegeniiber dient das Antwortformat 
der Registrierung eben dieses Testverhal- 
tens. Es kann aus anzukreuzenden Alter- 
nativen bestehen, aus einer leeren Zeile, in 
die man etwas eintragen muB, aus einer 



nichrstu figen Antwortskala, auf der man 
eine Stufe ankreuzen muB, oder einem 
weiBen Blatt Papier, auf das man etwas 
zeichnen soli. 

Diese beiden Bestandteile gehoren aus 
logischen Griinden zu einem Item, denn 
man mochte in einem Test das Verhalten 
unter standardisierten Situationen erfassen 
(durch den Itemstanmi vorgegeben), und 
man mochte das Verhalten der Personen in 
diesen Situationen in einem vergleichba- 
ren Format registrieren, dem Antwortfor- 
mat. Dennoch kann einer der beiden Be- 
standteile eines Items bei einzelnen Tests 
bis zur Unkenntlichkeit degeneriert sein. 

So bestehen z.B. die Items bei dem be- 
kannten Tintenkleckstest von Rorschach 
(vgl. Kap. 2.2.2.4) allein aus den Tafeln, 
die in diesem Sinne den Itemstamm dar- 
stellen. Das Antwortfoimat ist schlicht das 
offene Ohr des Testleiters, meist eines 
Therapeuten, fur die gesprochenen Aus- 
fiihrungen des Probanden zu dieser Tafel. 
Im anderen Extrem kann ein Item nur aus 
den Alternativen bestehen, zwischen 
denen man auswahlen soil, also dem Ant- 
wortfoimat, eventuell mit dem Hinweis als 
‘Itemstamm’, daB man die geeignete 
Alternative anzukreuzen habe. 

Der Normalfall besteht jedoch tatsachlich 
darin, daB im Itemstanmi eine Aufgabe 
gestellt wird, eine Frage gestellt wird oder 
eine Situation dargestellt ist, und mit ei- 
nem geeigneten Antwortfoimat das Ver- 
halten in dieser Situation, zu dieser Frage 
oder zu dieser Aufgabenstellung registriert 
wird. 

Mit der Definition eines Items als kleinste 
Beobachtungseinheit ist auch gemeint, daB 
ein Item tatsachlich eine Einheit im Sinne 
von ‘Einheitlichkeit’ darstellen muB. Ein 
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Item, das nach zwei Dingen gleichzeitig 
fragt, zwei unterschiedliche Aufgaben in 
einem stellt oder gleichzeitig zwei selir 
unterschiedliche Stimuli beinhaltet, ist in 
der Regel ein u nbrauehbares, zumindest 
problematisches Item: Das im Antwortfor- 
mat registrierte Verhalten muB eindeutig 
auf die im Itemstamm vorgegebene Situa- 
tion (Frage) zuriickzu full re n sein, wenn 
das Testverhalten Riickschliisse auf die 
Personeneigenschaft erlauben soil. 

2.3.1 Arten von Antwortfor- 
maten 

Die wichtigste Unterscheidung bei Ant- 
wortformaten ist die Trennung nach freien 
(oder offenen) und gebundenen Antwort- 
formaten. 

In einem freien Antwortformat wird die 
Itemantwort von der getesteten Person 
selbst in einem allgemein verstandlichen 
Zeichensystem formuliert wie z.B. in der 
Sprache, in Form von Zahlen, in Bildern, 
in Gesten oder in Lauten. Es bleibt dann 
dem Testleiter vorbehalten, diese wie auch 
immer registrierte Itemantwort zu ver- 
schliisseln, d.h. in ein vorgefertigtes Kate- 
goriensystem einzuordnen. Diesen Vor- 
gang nennt man Signierung (s. Kap. 
2.5.1). Der typische Fall von freien Ant- 
worten besteht in einer kurzen scliri ft I i- 
chen Antwort auf dem Testformular. 

Auch freie Antworten erfordern ein For- 
mat, denn es wird ja vorgegeben, welche 
Art von Verhalten die Person produzieren 
soil, etwa ein Bild malen, einen Satz er- 
ganzen, ein Muster fortsetzen, eine Zah- 
lenreihe erganzen oder eine Geschichte 
erzahlen. 



Ein gebundenes Antwortformat bietet 
demgegeniiber eine Auswahl von Verhal- 
tensaltemativen an. Die Person braucht die 
Itemantwort nicht zu formulieren, sondem 
hat einen e in ge sell rank ten Verhaltensbe- 
reich zur Verfiigung, aus welchem eine 
Auswahl zu treffen ist. Der Vorteil dieser 
Antwortformate liegt darin, dab der Pro- 
zeb der Signierung, also der Einordnung 
der Itemantwort in Verhaltenskategorien 
entfallt. 

2.3.1. 1 Freie Antwortformate 

Ein freies Antwortformat ist vorzuziehen, 
wenn es um die Erfassung spontaner 
Reaktionen geht, denn das Durchlesen von 
Verhaltensaltemativen kann die Sponta- 
nitat einschranken. Es ist auch bei der 
Erfassung kreativer Leistungen (was sich 
von selbst versteht) oder bei Assoziations- 
tests sinnvoll, wo es darum geht, welche 
Assoziationen man zu einem vorgege- 
benen Stimulus hat. Auch in projektiven 
Testverfahren sind im allgemeinen freie 
Antwortformate angebracht, da das 
Durchlesen vorgegebener Antwortaltema- 
tiven den Froze B der Projektion storen 
kann. 

Bei Leistungstests sind freie Antworten 
ein Mittel, um die Wahrscheinlichkeit ein- 
zuschranken, dab die richtige Antwort 
erraten wird. Generell ist auch bei solchen 
Befragungsinhalten ein freies Antwort- 
format vorzuziehen, bei denen sich die 
Wichtigkeit des Erfragten darin manifestie- 
ren kann, dab es der befragten Person 
zuerst einfallt. 

Ein Beispiel hierfur ist die Erhebung von 
Wertvorstellungen: gibt man diese in 
einem gebundenen Foimat vor, so werden 
in der Regel alle als wichtig eingestuft. 
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LaBt man dagegen in einem freien Ant- 
wortformat diejenigen Werte nennen, die 
fur die befragte Person wichtig sind, so 
fallen der Person unter Umstanden wirk- 
lich nur diejenigen Werte ein, von denen 
sie sich leiten laBt. 

Ein ganz anderes Kriterium fiir freie Ant- 
worten ist das Alter der befragten Perso- 
nen. So kann es fiir Kinder durchaus 
schwierig sein, vor die Entscheidungssi- 
tuation eines gebundenen Antwortforma- 
tes gestellt zu werden, jedoch selir viel 
einfacher, eine freie Antwort zu produzie- 
ren. 

Innerhalb der freien Antwortformate las- 
sen sich drei Arten von Antwortfomiaten 
unterscheiden. 

Eine Art ist dadurch gekennzeichnet, daB - 
auBer der Angabe des Mediums - so gut 
wie keine weiteren Vorgaben gemacht 
werden. D.h. die Person bekommt ein 
weiBes Blatt Papier hingelegt mit dem 
Auftrag, z.B. die Mitglieder ihrcr Familie 
als Tiere zu zeichnen (Familie-in-Tieren 
Test). 

Ein zweiter Typ freier Antwortfomiate 
macht eine formale Vorgabe fiir die Pro- 
duktion des Verhaltens, wie z.B. ein Wort 
aufzuschreiben, genau einen Satz zu for- 
mulieren, genau drei Dinge zu nennen, so 
viele Antworten wie moglich zu produzie- 
ren und diese so schnell wie moglich auf- 
zuschreiben usw. Mit diesen formalen 
Vorgaben fiir die freie Produktion der 
Antwort kann eine gewisse Standardisie- 
rung des Tests erreicht werden und es 
konnen Fehlerquellen wie die Eloquenz 
(Redegewandtheit) der befragten Person 
kontrolliert werden. 



Ein dritter Typ freier Antwortformate 
macht eine sogenannte Liickenvorgabe, 
d.h. die erfragte Itemantwort soil eine 
Leerstelle im vorgegeben Itemstamm aus- 
fiillen. Dies ist z.B. der Fall, wenn die 
Aufgabe darin besteht, ein unvollstandiges 
Bild oder einen Satz zu erganzen oder 
Geschichten oder vorgegebene Muster 
fortzusetzen. 

Der Vorteil von einschrankenden Vor- 
gaben bei freien Formaten liegt zum einen 
in einer groBeren Sicherheit fiir die gete- 
stete Person hinsichthch dessen, was von 
ihr verlangt wird. Zum anderen lassen sich 
die Antworten leichter signieren, da sie, 
zumindest auBerlich, homogener sind. 

Der Nachteil einschrankender Vorgaben 
ist darin zu sehen, daB die freie Produktion 
der Antworten behindert werden kann. 

Bei der Auswahl eines freien Antwortfor- 
mates ist unbedingt schon in der Pla- 
nungsphase genau festzulegen wie die 
freien Antworten zu signieren sind. 

Wird z.B. bei einem Kreativitatstest mit 
freiem Antwortformat lediglich ausge- 
zahlt, wieviele Ideen zu einem Stimulus 
produziert werden, unabhangig davon, wie 
ahnlich sich die Ideen, wie neu oder wie 
niitzlich sie sind, so sollte das Antwort- 
format eine Zeitbegrenzung enthalten. Bei 
unbegrenzter Beantwortungszeit diirfte 
sich die Anzahl der Produktionen einander 
angleichen. Soil hingegen auch die Quali- 
tat der Produktion (Neuartigkeit, Brauch- 
barkeit) signiert werden, so ist ein Ant- 
wortformat ohne Zeitbegrenzung sinn- 
voller. 
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2.3.1.2 Gebundene Antwortfor- 
mate 

Gebundene Antwortformate haben zu- 
nachst den Anschein einer hoheren Objelc- 
tivitdt und sind tatsachlich oft auch objek- 
tiver, da die Auswertungsobjektivitat sehr 
hoch ist. Die durch die vorgegebenen 
Antwortalternativen erzwungene Objek- 
tivitat kann jedoch auch leicht zu Lasten 
der Validitat des Tests gehen: Die vorge- 
gebenen Altemativen schopfen vielleicht 
nicht alle Reaktionsmoglichkeiten aus, das 
Durchlesen der Altemativen erzeugt bzw. 
bee in fluBt die Antwort oder die vorgege- 
benen Antworten entsprechen in Fomiu- 
lierung und Stil nicht der naturlichen 
Reaktion der befragten Person. 

Der Hauptvorteil gebundener Formate 
besteht in der Auswertungsokonomie des 
Tests, d.h. solche Tests sind schnell, von 
ungeschulten Auswertem und mit Scha- 
blonen auswertbar und somit bei Massen- 
untersuchungen einsetzbar. Tests mit frei- 
en Antworten konnen prinzipiell den glei- 
chen Grad an Objektivitat (und wissen- 
schaftlicher Dignitat) erreichen, aber ver- 
bunden mit einem hoheren Aufwand. 

Ein gebundenes Antwortformat besteht 
aus einem vorgefertigten System von Ant- 
wortmoglichkeiten. Die befragte Person ist 
an diese Antwortkategorien gebunden, 
also nicht frei in ihren Reaktionen. 



Prinzip kann es bei Testitems alle vier 
Kombinationsmoglichkeiten von disjunk- 
ten und nicht-disjunkten und exhaustiven 
und nicht-exhaustiven Antwortkategorien 
geben. Beispiel: 

Wie grofi ist die Wurzel aus 2 ? 
mit den Antwortkategorien: 



exhaustiv 



nicht 

exhaustiv 



disjunkt nicht disjunkt 



kleiner als 1.3. 


kleiner als 1.3. 


1.3 bis 1.5 


1.2 bis 1.8 


groBer als 1.5 


groBer als 1.6 


1.2 


1.41 oder 1.73 


1.69 


1.21 oder 1.73 


1.41 


1.21 oder 1.41 



Wahrend bei Leistungstests nicht-exhau- 
stive Formate sehr gebrauchlich sind, kon- 
nen sie bei anderen Testarten problema- 
tisch sein, da die befragte Person in die 
Situation kommen kann, eine Itemantwort 
geben zu wollen, die in den Antwortkate- 
gorien gar nicht vorgesehen ist. 

Manchmal mochte man bewuBt keine 
Exhaustiv itat, wenn man namlich die 
befragte Person dazu zwingen will, eine 
Auswahl aus den vorgegebenen Alter- 
nativen zu treffen. Solche Antwortformate 
nennt man 'forced choice’ Formate 
(deutsch: erzwungene Wahl). Beispiel: 



Wie bei jedem Kate goriensy stem, so stellt 
sich auch bei den vorgegebenen Antwort- 
kategorien eines gebundenen Antwortfor- 
mates die Frage, ob die Kategorien dis- 
junkt sind, d.h. einander ausschlieBen, und 
ob die Menge der vorgegebenen Katego- 
rien exhaustiv ist, d.h. den Bereich aller 
Verhaltensmoglichkeiten ausschopft. Im 



Was maclien Sie, wenn ein guter 
Freund ein lang geplantes Treffen 
absagt ? 

- tch verabrecle mich mit jemand 
anderem. 

- Ich gehe allein spazieren. 

- Ich verrichte eine seit langem 

notwendige Arbeit. 
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Die Funktion von solchen forced choice 
Formaten besteht darin, nur solche Reak- 
tionen zuzulassen, die man nach der vor- 
liegenden Theorie iiber die zu messende 
Personeneigenschaft auch eindeutig inter- 
pretie ren kann. 

Thr Nachteil liegt selbstverstandlich darin, 
daB sich die Validitdt des Tests ver- 
schlechtert, wenn die Personen in Erman- 
gelung einer passenden Kategorie eine be- 
liebige der vorgegebenen Kategorien an- 
kreuzen. 

Die Exhaustivitat der Antwortkategorien 
ist jedoch nicht nur eine Frage des 
Antwortformates, sondern auch des 
Itemstamms. So kann ein exhaustiv 
formuliertes Antwortformat wie 

- ja 

- nein 

- ich weiB nicht 

fur die befragte Person zu einem Problem 
werden, wenn sie am liebsten ‘sowohl als 
auch' oder ‘weder noch' antworten wiirde. 
Beispiel: 

Sind Sie immer noch so gliicklich wie 
friiher? 

Ja - Nein - Ich weifi nicht 

Flier werden alle befragten Personen vor 
ein Problem gestellt, die friiher gar nicht 
gliicklich waren. 

Bei Leistungstests sind die vorgegebenen 
Antwortkategorien irn allgemeinen nicht 
exhaustiv und konnen es meistens auch 
gar nicht sein. Beispiel: 

Welche Zahl setzt die folgencle 
Zahlenreihe am besten fort? 

2 3 4 9 8 27 16? 
Antwortalternativen: 32, 18, 54 oder 
81. 



(Die l'ichtige Zahl ist 81, da sie die Reihe 
3 = 3 1 , 9 = 3 2 , 27 = 3 3 fortsetzt.) 

Solche Aufgaben haben eine unendlich 
grofie Anzahl moglicher Itemantworten, 
aus der nur eine kleine Anzahl zur Aus- 
wahl angeboten werden kann. Die richtige 
Itemantwort sollte natiirlich darunter sein. 
Die aus der groBen Anzahl moglicher 
falscher Antworten ausgewahlten Ant- 
wortalternativen nennt man Distraktoren. 

Wie wichtig die Auswahl geeigneter Di- 
straktoren fiir die Itemkonstruktion ist, 
wird sofort einsichtig, wenn man sich vor- 
stellt, die Antwortalternativen zum voran- 
gehenden Beispiel lauteten: 

1, 2, 3, 4 und 81. 

Distraktoren haben die Funktion, die 
Identifikation der richtigen Antwort zu 
erschweren. Dies ist deswegen notwendig, 
weil der LosungsprozeB bei gebundenen 
Antwortfoimaten grundsatzlich ein ande- 
rer ist als bei freien Antworten. Bei vorge- 
gebenen Antwortalternativen werden in 
der Regel alle vorgegebenen Alternativen 
daraufhin gepriift, ob sie die angemessene 
Itemantwort darstellen. Je ‘ahnlicher’ die 
Antwortkategorien sind, desto schwieriger 
ist dieser AuswahlprozeB fur die befragte 
Person. 

Bei Leistungstestitems wird der Auswahl- 
prozeB nicht nur durch die Ahnlichkeit der 
Antwortalternativen erschwert, sondern 
auch durch die Plausibilitat der Distrak- 
toren auf den ersten Blick. So kann der 
zeitliche Aufwand zur Losungsfindung 
nahezu beliebig durch das Angebot sein' 
schwieriger Distraktoren gesteigert wer- 
den. Ein Beispiel hierfiir ist das folgende 
Item aus dem Test fur medizinische 
Studiengange (TMS): 
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Abbildung 10: Ein Item aus dent TMS, (Inst. f. 
Test- und Begabtmgsforschung 1989) 

Mit der Auswahl von Distraktoren kann 
jedoch nicht nur die Schwierigkeit eines 
Items variiert werden, sondern es konnen 
auch gezielt halbrichtige Losungen oder 
bestimmte Denkfehler der befragten Per- 
sonen erfaBt werden. 

Ein Beispiel hierfiir stellt der Wiirfeltest 
aus dem Intelligenzstrukturtest (1ST) dar, 
bei dem es neben der richtigen Losung 
auch immer einen Distraktor gibt, in dem 
der Wiirfel zwar die richtigen Flachen, 
aber in einer falschen Anordnung hat: 




Abbildung 11: Ein Item aus dem 1ST (Amthauer 
1970) 

Wahrend die Antwortkategorien bei Lei- 
stungstests im allgemeinen nicht exhaustiv 
sind, sollten sie jedoch stets disjunkt sein, 
wenn man nur eine Antwortalternative 
auswahlen darf. Dies ist notwendig, damit 
die befragte Person ihre Itemantwort 
eindeutig in genau einer der vorgegebenen 
Antwortkategorien wiederfindet. 

Nun gibt es aber Antwortformate, wo 
bewuBt mehrere Antwortkategorien anzu- 
kreuzen sind oder sogar eine beliebige 



Anzahl, einschlieBlich der Moglichkeit gar 
keine anzukreuzen, 

Bei Leistungstests bedient man sich oft 
dieses Tricks, um die Ratewahrscheinlich- 
keit zu senken. Bei Auswahl von nur einer 
Kategorie aus k vorgegebenen Kategorien 
betragt die Ratewalirscheinlichkeit nam- 
lich 1/k, also bei 5 Antwortalternativen 
20 %. 

Soil man aus fiinf Antwortalternativen 
zwei auswahlen, sinkt die Ratewahr- 
scheinlichkeit bereits auf 10%, da die An- 
zahl der moglichen Zweierkombinationen 
aus fiinf Elementen (5.4)/2 =10 betragt. 

Soil man eine beliebige Anzahl aus 5 Ant- 
wortkategorien auswahlen, betragt die Ra- 
tewahrscheinlichkeit nur noch 1/32, da es 
jeweils 

5 Einerauswahlen, 

10 Zweierauswahlen, 

10 Dreierauswahlen und 
5 Viererauswahlen 

gibt, wo noch die beiden Moglichkeiten 
hinzukommen, daB gar keine Alternative 
oder alle Alternativen richtig sind. 

Die Anzahl moglicher Kombinationen aus 
n Antwortalternativen laBt sich mit Hilfe 
des Binomialkoeffizienten 

/ n j n ■ (n — l) ... (n — k + 1) 

1 • 2 • 3... k 

berechnen (sprich ‘n iiber k’), der die An- 
zahl der Kombinationen von k Elementen 
aus einer Menge von n Elementen 
definiert. Die Anzahl aller moglichen 
Kombinationen ist dann iiber folgende 
Summe zu berechnen: 




k=0 
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Die R ate wall rse lie i n I i e h kc i t wird minimal, 
wenn man die Anzahl richtiger Antworten 
nicht vorgibt, sondern es deni Befragten 
iiberlaBt, wieviele Alternativen er fiir 
richtig halt. 

Solche Antwortfoimate werden nicht nur 
zur Senkung der R ate wall rsc lie i n I ich kei t in 
Leistungstests eingesetzt. Sie konnen auch 
im Rahmen von Einstellungsmessungen 
verwandt werden, z.B. wenn man aus 
einer Liste von Politikern die fiinf er- 
folgreichsten oder eine beliebige Anzahl 
von vertrauenswiirdigen Politikern auszu- 
wahlen hat. 

Eine Auswahlanweisung, bei der die 
Anzahl auszuwahlender Alternativen nicht 
vorgegeben ist, bezeichnet man auch als 
‘Pick any out of n’ -Format. 

Die in Kapitel 3 behandelten Testmodelle 
konnen mit solchen Mehifachantworten 
nicht direkt umgehen, da sie genau eine 
Reaktion pro Person-Item-Kontakt voraus- 
setzen. Diese Voraussetzung laBt sich auf 
zweierlei Weise nachtraglich herstellen. 

Erstens kann bei der Kodierung der Daten 
die Mehrfachantwort in eine Antwort- 
variable (mit disjunkten Kategorien) trans- 
formiert werden (s. Kap. 2.5). Bei Lei- 
stungstests wird dies in der Regel auch 
getan, indem namlich nur die richtige 
Kategorienkombination als Itemlosung ko- 
diert wird und alle anderen Kombina- 
tionen als Nicht-Losung. Es sind aber 
auch Transformationen in eine ordinale 
Antwortvariable moglich, indem z.B. die 
Anzahl der angekreuzten richtigen Alter- 
nativen als Antwortvariable fungiert. 



wortalternativen selbst als Items mit ei- 
nem dichotomen Antwortformat (gewahlt 
oder nicht gewahlt) aufzufassen. Im Falle 
einer vorgegebenen Anzahl von Auswah- 
len (Pick k out of n) ist dieser Weg nicht 
gangbar, da die experimentelle Unabhan- 
gigkeit zwischen den Items verletzt ist (s. 
Kap. 2.3.3). 

Beispiel: Wenn man nur drei Politiker von 
20 vorgegebenen auswahlen kann, so ha- 
ben nach drei erfolgten Wahlen die restli- 
chen Politiker keine Chance mehr gewahlt 
zu werden. Die ‘Items’ wiirden also keine 
unabhangigen Beobachtungseinheiten des 
Tests mehr darstellen. 



2.3. 1.3 Ratingformate 

Unter den gebundenen Antwortformaten 
bilden die sogenannten Ratingfoimate eine 
haufig benutzte Untergruppe. Ein Rating- 
format zeichnet sich durch zwei Eigen- 
schaften aus. Erstens handelt es sich um 
mehrere, d.h. mehr als zwei abgestufte 
Antwortkategorien, von denen angenom- 
men wird, daB sie fiir die befragte Person 
eine Rangordnung darstellen. Zweitens 
sind diese Antwortkategorien item-unspe- 
zifisch formuliert, d.h. dieselbe Benen- 
nung der Antwortkategorien gilt fiir meh- 
rere oder alle Items eines Fragebogens. 
Diese itemunspezifischen, ordinalen Ant- 
wortkategorien nennt man Ratingskala. 

Beispiel: 2 Items aus dem State-Trait- 
Anxiety-Inventory (STAI, Laux et al. 
1981) 



Der zweite Weg ist nur bei ‘Pick any out 
of n’ moglich und besteht darin, die Ant- 
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fast 

nie 


manch- 

mal 


oft 


fast 

immer 


Item 34: Ich mache 
mir Sorgen iiber mog- 
liches MiBgeschick 


i 


2 


3 


4 


Item 38: Enttauschun- 
gen nehme ich so 
schwer, daB ich sie 
nicht vergessen kann 




2 


3 


4 



Ratingformate haben gegenuber dichoto- 
men Antwortfomiaten, bei denen nur zwi- 
schen Ja/Nein oder Zustimmung/Ableh- 
nung unterschieden wird, den Vorteil, daB 
sie informationsreicher sind. Die befragte 
Person hat die Moglichkeit, sich gegen- 
uber dem Iteminhalt differenzierter zu 
auBern und verschiedene Abstufungen 
ihrcr Zustimmung oder Ablehnung auszu- 
driicken. 

Trotz der relativ klaren Definition einer 
Ratingskala und ihrer Vorteile, gibt es 
eine Vielzahl von Varianten von Rating- 
skalen und ebenso viele Punkte, die es bei 
der Testkonstruktion zu bedenken gilt. Die 
meisten dieser Uberlegungen hangen da- 
rnit zusammen, daB die Ratingskala eine 
Ordinalskala sein soil, d.h. von der be- 
fragten Person als solche benutzt und bei 
der Datenauswertung entsprechend ver- 
rechnet werden soil. 

Oft besteht sogar der weitergehende An- 
spruch, daB die Ratingskala Intervallska- 
lenqualitat besitzt. Wenn man dies (un- 
gepruft) annehmen will, kann man auf die 
Itemantworten noimale statistische Ver- 
faliren anwenden, die Intervallskalen vor- 
aussetzen. Bei den in Kapitel 3 behan- 
delten Testmodellen wird keine Intervall- 
Skalenqualitat von Ratingskalen voraus- 
gesetzt, sondern lediglich Ordinalskalen- 



qualitat. Mit den geschatzten Modellpara- 
metem erhalt man Information irber die 
Kategorienabstande (also auch, ob sie 
aquidistant sind und somit eine Inter- 
vallskala bilden) und daruber, ob die 
Annahme des Ordinalniveaus gerecht- 
fertigt ist. 

Folgende Aspekte gilt es bei der Kon- 
struktion einer Ratingskala zu beachten: 

Erstens, soil die Skala unipolar oder bipo- 
lar aufgebaut sein? 

Eine unipolare Skala geht von einem 
Nullpunkt lediglich in eine Richtung, d.h. 
zum Beispiel in Richtung auf eine starke 
Zustimmung. Die Ratingskala irn o.g. 
Beispiel aus dem STAI ist unipolar in 
Richtung auf zunehmende Haufigkeit. 

Bei bipolaren Ratingskalen gehen die Ka- 
tegorien von einem negativen Pol (z.B. 
sehr starke Ablehnung) irber einen fiktiven 
oder als Mittelkategorie vorgegebenen 
Nullpunkt bis hin zu einem positiven Pol 
(z.B. sein - starke Zustimmung). Eine bipo- 
lare Ratingskala ist im allgemeinen sym- 
metrised, d.h. sie hat gleich viele Katego- 
rien auf jeder Seite. Sie muB es aber nicht 
sein, wie das folgende Beispiel aus 
dem Interaktions-Angst-Fragebogen (IAF, 
Becker 1982) zeigt: 

Item 9: Sie denken damn, dafi Sie 
von Ihrem Vorgesetzten abends 
eingeladen sind. 

Item 11: Es soli Ilmen vom Arzt mit 
einer dicken Nadel Blut entnommen 
werden. 



Die Ratingskala fur alle Items lautet: 



angenehm 




unan 


genehm 


ziem- ein 


weder 


ein 


ziem- sehr auBerst 


lich wenig 


noch 


wenig 


lich 
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Dieser Fragebogen ist nicht nur ein 
Beispiel fur eine bipolare asymmetrische 
Ratingskala, er zeigt auch, dab es 
manchmal problematisch sein kann, ein 
item-unspezifisches Antwortformat fur 
alle Items zu verwenden. Es hangt selii' 
stark vom jeweiligen Iteminhalt ab, ob 
eine unipolare oder eine bipolare Rating- 
skala angemessen ist. 

Dariiber hinaus hangt die Entscheidung 
‘unipolar oder bipolar?’ auch von der zu 
messenden Personeneigenschaft ab, die 
ihrerseits unipolar oder bipolar definiert 
sein kann (z.B. ‘Extraversion-Introversion’ 
als bipolares, ‘Angstlichkeit’ als unipolares 
Konstrukt). Eine Korrespondenz der Art 
‘unipolares Konstrukt - unipolare Rating- 
skala’ ist zwar nicht zwingend, aber es 
kann Schwierigkeiten bereiten, wenn man 
fiir eine unipolare Eigenschaft einen Ge- 
genpol auf der Ratingskala konstruieren 
will. 

So kann im obigen Beispiel der Gegenpol 
‘angenehm’ zum Angstlichkeit anzeigen- 
den Pol ‘unangenehm’ auch zu konzep- 
tuellen Problemen fiihi'en: Miissen Per- 
sonen, die extrem wenig angstlich sind, 
die genannten Situationen wirklich als 
‘ziemlich angenehm’ einstufen? Wenn die 
Ratingskala Ordinalniveau haben soil, 
miibte man das erwarten. 

Zweitens lassen sich Ratingskalen danach 
unterscheiden, wie differenziert sie das 
abgestufte Urteil erfassen, d.h. also wie 
vide Stufen die Ratingskala aufweist. Die 
Anzahl der Stufen sollte sich dai'an orien- 
tieren, welchen Differenziertheitsgrad im 
Urteil man den zu befragenden Personen 
‘zutrauen’ kann. Dabei kommt so ziemlich 
jede Anzahl zwischen 3 und 10 in Frage. 



Neben dem vemiuteten Grad der kogniti- 
ven Differenziertheit der zu befragenden 
Personen spielt bei der Entscheidung iiber 
die Kategorienanzahl einer Ratingskala 
auch die Vermeidung sogenannter Ant- 
worttendenzen oder response sets eine 
grobe Rolle. 

Response sets 

Unter einem response set versteht man 
die von der zu messenden Personeneigen- 
schaft unabhangige Neigung einer Person, 
die Ratingskala in einer bestimmten Art 
und Weise zu gebrauchen. 

Es lassen sich folgende response sets un- 
terscheiden: 

Tendenz zum mittleren Urteil 
Tendenz zum extremen Urteil 
Ja-sage-Tendenz (Aquieszenz) 

oder auch deren jeweiliges Gegenteil, d.h. 

Vermeidung des mittleren Urteils, 
Vermeidung eines extremen Urteils 
und 

Nein-sage-Tendenz. 

Graphisch lassen sich response sets durch 
die jeweils entstehende Haufigkeitsver- 
teilung der Antwortkategorien darstellen: 

Tendenz zur Mitte Tendenz zum Extrem 



* * 

1234567 1234561 

Ja-sage Tendenz Nein-sage Tendenz 

* * 



1214561 1234567 
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Vermeidung der Mitte Verm, des Extrems 

* 

* * * * 

* * * * * 



1234 5 67 12 3 4 5 67 



Auch Kombinationen aus diesen response 
sets oder weitere Formen konnen die 
Benutzung einer Ratingskala systematisch 
pragen. 

Bei der Konstruktion und Auswahl einer 
Ratingskala ist der Einf'l ul.’> von response 
sets deswegen moglichst gering zu halten, 
weil er den SchluB von den Itemantworten 
auf die zu messende Personeneigenschaft 
beeintrachtigt, d.h. unsicherer macht. Die 
Beeinflussungsmoglichkeiten hangen in- 
sofern mit der Anzahl der Stufen der Ra- 
tingskala zusammen, als sich z.B. bei nur 
drei oder vier Antwortstufen eine Tendenz 
zum extremen Urteil weniger gravierend 
bemerkbar macht als etwa bei 7 Stufen. 

Drittens unterscheiden sich Ratingskalen 
dahingehend, ob sie eine ungerade Anzahl 
von Kategorien - und damit eine neutrale 
oder mittlere Kategorie - haben oder eine 
gerade Anzahl. 

In vielen Untersuchungen hat sich die 
Verwendung einer mittleren, neutralen Ka- 
tegorie als ungiinstig erwiesen. Diese Ka- 
tegorie wird von den Personen oft nicht 
oder nicht nur als Ausdruck einer mitt- 
leren Position zwischen zwei Polen 
benutzt, sondern sie driickt aus, daB die 
Person das Item fur unpassend halt oder 
die Antwort verweigert. Insofern ist die 
Persbnlichkeitseigenschaft, von der die 
Benutzung dieser Kategorie abhiingt, oft 
eine andere als die, die gemessen werden 
soli. Der Test ist in diesem Sinne dann 
zweidimensional. 



Von Personen, die motiviert sind den Test 
zu bearbeiten, wird die mittlere Kategorie 
oft gemieden, d.h. sie tritt seltener auf als 
es aufgmnd der Verteilung der zu mes- 
senden Eigenschaft zu erwarten ist. Dies 
fiihrt dazu, daB die Parameter entsprechen- 
der Testmodelle anzeigen, daB die mittlere 
Kategorie mit den anderen Kategorien der 
Ratingskala keine Ordinalskala bildet. Die 
Qualitat der Messung wird dann durch 
diese Kategorie eher beeintrachtigt als 
erhoht. 

Viertens und letztens unterscheiden sich 
Ratingskalen nach der Benennung ihr er 
Kategorien. Im folgenden einige Bei- 
spiele: 



- - 0 + 

1 1 1 1 


++ 


-2 -1 0 +1 

i i i i 


+2 

_| 


12 3 4 

i i i i 


5 

_| 


nie selten 

1 1 


oft sehr oft immer 

_l 1 1 



gar eher sehr 

nicht nicht kaum etwas stark 

I I I I I 

2-3 mal 1 mal 1 mal 

tag- pro pro pro noch 

lich Woche Woche Monat seltener 

I I I I I 

gar nicht vollig 

0123456789 10 

I I I I I I I 1 I I I 

Eine Benennung mit Zahlen wird oft ver- 
wendet, um zu bewirken, daB die Rating- 
skala wie eine Intervallskala benutzt wird. 

Dies ist jedoch nicht automatisch garan- 
tiert, da in der subjektiven Wahrnehmung 
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von Personen auch aufeinanderfolgende 
ganze Zahlen nicht unbedingt gleichen 
Abstand haben. 

Verbale Etikettierungen haben demgegen- 
iiber den Vorteil, dab die Bedeutung der 
Antwortstufen durch eine sprachliche Um- 
schreibung intersubjektiv vereinheitlicht 
wird, was bei einer Kennzeichnung durch 
Zahlen nicht gegeben ist. Die Schwierig- 
keit bei der sprachlichen Benennung liegt 
jedoch darin, solche Bescln'eibungen zu 
finden, die eindeutig eine Rangordnung 
der vorgegebenen Kategorien ausdrucken. 

Von einer Kombination aus beidem, d.h. 
numerische Bezeichnung der Stufen und 
verbale Besehrcibung der Pole (siehe die 
obigen Beispiele), erhofft man sich die 
Vorteile von beiden Varianten. 

Eine Belegung mit Symbolen wie Plus- 
und Minuszeichen soil wiederum die sub- 
jektiven Schwankungen in der Bedeutung 
sprachlicher Benennungen ausschlieben 
und - gegeniiber einer numerischen Eti- 
kettierung - den Eindruck iibertriebener 
mathematischer Exaktheit vemieiden. 



und gleichartige Mafistdbe fiir alle Items 
bei ihrer Antwort benutzen. 

Dennoch kann es sinnvoll sein, ordinal 
abgestufte Itemantworten spezifisch fiir 
jedes Item zu formulieren. Solche itern- 
spezifischen ordinalen Antwortalternati- 
ven wiirde man nicht mehr als Ratingskala 
(im engeren Sinne) bezeichnen. Fiir die 
Auswertung solcher Daten miissen Test- 
modelle herangezogen werden, die unter- 
schiedliche Kategorienabstande fiir jedes 
Item vorsehen. 

Das Problem von response sets ist bei 
itemspezifischen Formaten differenzierter. 
Einerseits treten response sets seltener auf, 
da sich Antwortgewohnheiten schlechter 
herausbilden und manifestieren, wenn die 
Antworten bei jedem Item anders lauten. 
Andererseits konnen sie - wenn sie 
auftreten - schwerer identifiziert werden. 

Der Vorteil itemspezifischer Antwortkate- 
gorien liegt jedoch darin, dab man sie auf 
den jeweiligen Iteminhalt beziehen kann. 
Ein Beispiel sind die beiden folgenden 
Items eines Interessentests: 



Hdufigkeitsangaben als Etikettierungen 
der Ratingkategorien haben den Vorteil, 
dab sie einen verbindlichen, intersubjektiv 
definierten Mabstab als Beurteilungsskala 
anbieten und sornit Urteilsfehler und den 
Einflub von response sets auf ein Mini- 
mum reduzieren. 

Ratingformate haben den Vorteil, dab sie 
nicht fiir jedes einzelne Item konstruiert 
werden miissen, sondem fiir alle Items 
eines Tests gelten. Dies ist auch fiir die 
befragte Person ein Vorteil, denn sie kann 
sich auf einen Antwortmodus einstellen 



Wenn Sie sich Ihre Freizeit allein nach 
Ihren Interessen gestalten konnten, wie 
hdufig wiirden Sie... 



ein Buch lesen 



mindestens 1 Std. 
tdgl. 



etwa 5-8 Std. in 
der Woche 



etwa 1-2 Std. in 
der Woche 



mit Freunden ausgehen 



mindestens 


einmal 


l-2mal 


seltener 


3mal pro 


pro 


pro 




Woche 


Woche 


Monat 
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2.3.2 Die sprachliche Formu- 
lierung der Items 

Auch die einfachste Frage bleibt stets 
mehrdeutig und labt dem Befragten einen 
Interpretationspielraum. Daher mub man 
eine gewisse Bereitwilligkeit vorausset- 
zen, dab der Befragte die Frage auch so 
versteht wie sie gemeint ist. Bereits eine 
einfache Frage wie 

Warwn haben Sie dieses 
Buck gekciuft? 

hat je nach Betonung mindestens vier In- 
terpretationen: 

Was war die Motivation? 

Warwn Sie und kein anderer? 

Warwn gerade dieses Buck? 

Warwn gekauft und nicht geklaut 
oder geborgt? 

Fur derartige Probleme der sprachlichen 
Formulierung von Items kann es keine 
allgemeingiiltigen Anweisungen geben 
au 6c r der, da 6 jede Frage oder jedes Item 
nur einen einzelnen Aspekt ansprechen 
sollte und nicht zwei oder drei gleichzei- 
hg- 

Tm folgenden sollen einige Dichotomien 
dargestellt werden, nach denen sich Items 
einteilen lassen und die auch bei der Aus- 
wahl und Formulierung der Iteminhalte 
dienlich sein konnen. 

Der Unterschied zwischen direkten und 
indirekten Fragen besteht darin, dab man 
in einem Item die zu messende Personen- 
eigenschaft selbst ansprechen kann, z.B. 

Halten Sie sich fiir riicksichtsvoll? 

oder man Indikatoren erfragt, iiber die 
man indirekt auf die zu messende Eigen- 
schaft schliebt: 



Halten Sie mit dem Auto an, wenn am 
Strafienrand eine Person steht, die offen- 
sichtlich die Strafie iiberqueren mochte ? 

Das Item kann sich auf einen hypothe- 
tisclien oder tatsdchlichen Sachverhalt 
beziehen, also z.B. 

Was wiirden Sie tun, wenn... 
oder 

Haben Sie schon einmal . . . getan ? 

Hypothetische Inhalte sind anfalliger ge- 
genuber Fehleinschatzungen der eigenen 
Person, sozialer Erwunschtheit und ande- 
ren Fehlerquellen. Erfragt man tatsach- 
liche Sachverhalte, so erhalt man zwar 
‘harte Fakten’ und ist von subjektiven 
Einschatzungen unabhangiger, jedoch ist 
die Itemantwort auber von der Personen- 
eigenschaft noch von situationalen Bedin- 
gungen der befragten Person abhangig: 
Eine Person kann z.B. keine Gelegenheit 
gehabt haben, die erfragte Tatigkeit zu 
zeigen. 

Das Item kann sich auf einen eher konkre- 
ten oder abstrakten Sachverhalt beziehen. 
Beispiel: 

Sammeln Sie Briefmarken? 
oder 

Sammeln Sie geme irgendwelche Sachen? 

Auch hier stellen die konkreten Inhalte 
eher harte Fakten dar, die situationsab- 
hangiger sind. Die allgemeinen Inhalte 
sind eher ‘Einschatzungssache’ und somit 
anfalliger fiir Urteilsfehler. 

Die Frage kann personalisiert oder deper- 
sonalisiert gestellt werden. Beispiel: 

Wiirden Sie gegen ein geplantes 
Kernkraftwerk demonstrieren ? 
oder 
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Sollten moglichst viele Menschen gegen 
geplante Kernkraftwerke clemonstrieren? 

Personalisierte Fragen lassen einen besse- 
ren Riickschlub auf die zu messende Ei- 
genschaft zu, wenn sie ehrlich beantwortet 
werden. Sie konnen aber von der befragten 
Person als ein zu starker Eingriff in die 
Privatsphdre betrachtet werden und Wi- 
derstand gegen den Test bewirken. 

Depersonalisierte Fragen wahren die Di- 
stanz, bergen aber die Gefahr, dab die 
Antworten nur allgemeine Unverbind- 
lichkeiten ausdrucken (‘Ja, ja, man sollte 
das tun . . . aber ich doch nicht’). 

Items konnen versuchen einen inneren 
Zustand neutral abzufragen, d.h. moglichst 
keine Stimulus qualitat haben, oder sie 
konnen bewubt einen solchen Stimulus 
setzen, um die Reaktion darauf zu erfra- 
gen. Beispiel: 

Sind Sie manchmal wiitend iiber die lasche 
Haltung der Polizei gegeniiber dem 
Rechtsradikalismus? 
oder 

Was empfinden Sie, wenn Sie horen, daft 
Jugendliche den Hitler-GruJ? zeigen, ohne 
von der danebenstehenden Polizei 
behelligt zu werden? 

Items mit Stimulusqualitat (die zweite 
Formulierung) haben sicherlich den Vor- 
teil, dab auch Personen ohne eine entspre- 
chende Metakognition beim Durchlesen 
des Itemtextes ihre eigene Reaktion auf 
diesen Stimulus beobachten konnen und 
die Antwort daher giiltiger ist. 

Andererseits ist die Itemantwort bei sol- 
chen Items sehr stark vom jeweiligen 
Stimulus abhdngig, was die Zuverlassig- 
keit des Testergebnisses schmalem kann. 
Bei dem obigen Beispiel halt vielleicht 



eine Person den Hitler-Grub fur eine vom 
Gmndgesetz erlaubte freie Meinungsaube- 
mng, wahrend sie ansonsten fur eine star- 
kere Bekampfung des Rechtsradikalismus 
ist. 

Nicht zuletzt kann man mit der sprachli- 
chen Einkleidung des Iteminhaltes die 
Schwierigkeit des Items beeinflussen und 
gezielt steuern. Mit Schwierigkeit ist dabei 
gemeint, wie schwer es einer durchschnitt- 
lichen Person fallt, dem Iteminhalt zuzu- 
stinmien oder die Frage zu bej alien. Bei- 
spiel: 

Die Polizei sollte Bundesbiirger, die den 

Hitlergrufi zeigen, sofort festnehmen und 
strafrechtlich verfolgen 
oder 

Das Zeigen des Hitlergrufies sollte vom 
Staat mit den zur Verfiigung stehenden 
Rechtsmitteln geahndet werden. 

Eine Manipulation der Itemschwierigkeit 
durch die sprachliche Einkleidung (die 
erste Formulierung diirfte ‘schwieriger' 
sein) ist nichts Ungewohnliches. Man nuifi 
als Testkonstrukteur sogar die Schwierig- 
keit in einem gewissen Rahmen beeinflus- 
sen, wenn man einen zuverlassigen Test 
entwickeln will: Bei einigen Testmodellen 
in Richtung auf eine mittlere Schwierig- 
keit, bei anderen Testmodellen in Rich- 
tung auf eine gleichmabige Streuung oder 
Staffelung der Schwierigkeiten aller Items. 

Weil die Itemschwierigkeit von der 
sprachlichen Formulierung abhangt, sind 
deskriptive Ergebnisse von einzelnen 
Items, z.B. ‘80% der Bevolkerung tolerie- 
ren den Hitler-Gmb', relativ wertlos, wenn 
nicht der vollstandige Wortlaut und das 
Antwortformat der Frage mit genannt 
werden. 





2.3 Itemkonstruktion 



2.3.3 Die Zusammenstellung 
des Tests 

Wie fiigt man Items zu einem Test 
zusammen? Damit ist im wesentlichen die 
Frage gemeint, welche Abhdngigkeiten 
zwischen den Items erlaubt sind und 
welche nicht. 

Betrachtet man die Durchfiihrung eines 
Tests als ein Experiment (s.O. Kapitel 1), 
so stellt die Beobachtung des Verhaltens 
mehrerer Personen bei verschiedenen 
Items - in der Temiinologie der Versuchs- 
planung - eine Mefiwiederholung dar. Da 
alle Itemantworten von denselben Per- 
sonen stammen, und durch die zu mes- 
sende Personeneigenschaft bedingt sind, 
werden keine unabhdngigen Beobach- 
tungen realisiert. 

Halt man die zu messende Personeneigen- 
schaft jedoch konstant, z.B. indern man 
nur eine Person betrachtet oder nur Per- 
sonen mit derselben Auspragung der 
latenten Variable, so miissen die Items ex- 
perimentell unabhdngig bearbeitet werden. 

Diese spezielle Art von Unabhangigkeit 
nennt man lokale stochastische Unab- 
hangigkeit (stochastisch = wahrscheinlich- 
keitsmaBig). ‘LokaT bedeutet, daB die 
stochastische Unabhangigkeit nur fiir 
einen festen ‘Ort’ (locus = Ort) oder Wert 
der Personenvariable gilt. 

Betrachtet man nur Personen mit 
demselben Wert der latenten Variable, so 
versteht man unter stocliastischer Unab- 
hangigkeit von zwei Items A und B, daB 
die Wahrscheinlichkeit einer bestimmten 
Antwort A, bei Item A und Ant wort B, 
bei Item B gleich dem Produkt der beiden 
Einzelwahrscheinlichkeiten ist: 
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P(A| und B,) = p(A[) . p(B,). 

Was diese Definition bedeutet, wird klar, 
wenn man sich anschaut, wie sich die 
Wahrscheinlichkeit der Antwortkombina- 
tion ohne die Annahme der stochastischen 
Unabhangigkeit berechnen wiirde. Dann 
muBten die Walt rsehcinliehkei ten der Ant- 
wortkombinationen auf bedingte Wahr- 
scheinlichkeiten zuruckgefiihrt werden: 

p(A, und B,) = p(A[) . p(Bj I A,) 

oder 

P(Aj und Bp = p(B!) . p(Aj I Bj). 

p( B I A,) bezeichnet die Wahrscheinlich- 
keit von B j unter der Bedingung von At. 

Vergleicht man diese beiden Gleichungen 
mit der obigen Definition, so zeigt sich, 
daB stochastische Unabhangigkeit nichts 
anderes bedeutet, als daB die bedingten 
Antwortwahrscheinlichkeiten gleich den 
unbedingten sind. Noch anders ausge- 
druckt: 

Die Wahrscheinlichkeit einer Antwort auf 
Item B darf nicht davon abhangen, was 
die Person auf Item A (tatsachlich) geant- 
wortet hat. 

Folgende Graphik soil das demonstrieren: 
Item A Item B 
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Die Graphik stellt die Antwortwahr- 
scheinlichkeiten des Items B mit den bei- 
den Altemativen B, und B 2 in Abhangig- 
keit von den tatsachlichen Antworten auf 
Item A, Aj und A 2 , dar. Die Lange der 
Kastchen symbolisiert die GroBe der 
Wahrsehcinlichkeiten. Das Wahrschein- 
lichkeitsverhaltnis von B, zu B 2 muB 
gleich bleiben, egal was bei Item A ge- 
antwortet wurde. 

Es wird jedoch keine Aussage dariiber 
gemacht wie das Wahrscheinlichkeitsver- 
haltnis von A, zu A 2 ist. Ein haufiges 
Mifiverstandnis besteht darin, daB man 
meint, die Wahrscheinlichkeiten von A 
und B diirften nicht zusammenhangen. 
Uber die Personen hinweg betrachtet ist 
das natiirlich der Fall: wer Item A eher 
lost, wird auch Item B eher losen, wenn es 
sich um einen homogenen Leistungstest 
handelt. Nur: durch die Losung von Item 
A darf sich die Waln'scheinlichkeit fiir B 
nicht verandem! 

Wann ist die Annahme der lokalen stocha- 
stischen Unabhangigkeit verletzt? Auf 
jeden Fall bei logischen Abhangigkeiten 
zwischen den Items. Logisclie Unabhdn- 
gigkeit zwischen den Items bedeutet, daB 
die Beantwortung eines Items nicht eine 
bestimmte Antwort auf ein anderes Item 
voraussetzen darf. Ein Beispiel fiir logisch 
abhangige Items ist: 

Item 1: Haben Sie schon einmal das Ge- 
fiihl gehabt, dafi Sie keinern Menschen 
trauen konnen ? 

Item 2: Haben Sie daraufhin mit jeman- 
dem dariiber gesprochen? 

Es ist klar, daB die Beantwortung von 
Item 2 nur Sinn macht, wenn Item 1 bejaht 
wurde. Solche logischen Abhangigkeiten 
bilden das Prinzip von sog. verzweigten 



Fragebogen, bei denen jeweils vorge- 
schaltete ‘Filterfragen’ abklaren sollen, ob 
die befragte Person uberhaupt den folgen- 
den Fragenkomplex zu bearbeiten hat 
(z.B. ‘...wenn nein, gehen Sie weiter zu 
Frage XY’). Zur testtheoretisch fundierten 
Messung einer Personeneigenschaft eig- 
nen sich solche abhangigen Items nicht, da 
die Konstruktion geeigneter Testmodelle 
sehr kompliziert ist. 

Wenn sichergestellt ist, daB zwischen den 
Items keine logischen Abhangigkeiten be- 
stehen, stellt sich als nachstes die Frage, 
wie die Items zu einem Test zusammen- 
gesetzt werden konnen, ohne die lokale 
stochastische Unabhangigkeit der Itemant- 
worten zu gefaln'den. Hier gilt es, Posi- 
tionseffekte und Reihenfolgeeffekte zu 
beriicksichtigen. 



Positions- und Reihenfolgeeffekte 

Unter Positionseffekten versteht man die 
Veranderung der Schwierigkeit oder ande- 
rer Merkmale eines Items infolge seiner 
Plazierung im Test. Mit solchen Positions- 
effekten ist besonders bei den Items am 
Testanfang (mangelndes Instruktionsver- 
standnis oder ‘warming-up’ Prozesse) oder 
am Testende (Ermiidung, Zeitmangel, 
schwindende Testmotivation und Ab- 
bruch) zu rechnen. 

Unter Reihenfolgeeffekten versteht man 
die Beeinflussung der Itemantwort da- 
durch, welche anderen Items zuvor bear- 
beitet wurden. So sind bei vielen Lei- 
stungs- und Intelligenztests die Aufgaben 
nach aufsteigender Schwierigkeit geord- 
net, was sicherlich dazu beitragt, daB die 
schwierigen Aufgaben infolge der Ubung 
an leichteren Aufgaben ebenfalls etwas 
leichter zu losen sind. 
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Solche Effekte konnen, mussen aber nicht 
die lokale stochastische Unabhangigkeit 
verletzen. Diese besagt lediglich, dab die 
Wahrscheinlichkeit einer Itemantwort 
nicht davon abhangen darf, was bei den 
vorangehenden Items geantwortet wurde. 
Seim wohl darf sie davon beeinfl ubt sein, 
welche Items vorher bearbeitet wurden. 

Solange sich ein Positions- oder Reihen- 
folgeeffekt darin ausdriickt, dab ein Item 
durch seine Position im Test oder durch 
vorangehende Items fur alle Personen 
gleichermaben leichter oder schwerer 
wird, ist die stochastische Unabhangigkeit 
nicht verletzt. 

Bewirken diese Effekte dagegen reak- 
tionskontingente Veranderungen der zu 
messenden Personeneigenschaft (reak- 
tionskontingent = mit der Reaktion zusam- 
menhangend), so ist die lokale stochasti- 
sche Unabhangigkeit verletzt. 

Hier ist insbesondere an reaktionskontin- 
gentes Lernen zu denken, also Lernvor- 
gange, die bei einer richtigen Itemlosung 
anders ablaufen als bei einer falschen Lo- 
sung. Leider sind die meisten oder zumin- 
dest die interessanteren Lernvorgange 
reaktionskontingent. So etwa Lernen 
durch Einsicht, das sich einstellt, wenn 
man eine Aufgabe ‘zufallig’ gelost hat 
(Aha-Erlebnis), oder Verstdrkungslernen, 
wenn die richtige Losung (sofern man 
auch merkt, dab sie richtig ist) als Ver- 
starker fur den richtigen kognitiven Prozeb 
fungiert. Auch wenn man bei einer er- 
folglosen Bearbeitung von Aufgaben mehr 
lernt als bei einer richtigen Losung, liegt 
reaktionskontingentes Lernen vor. Sollten 
solche Lernprozesse massiv auftreten, 
ware die stochastische Unabhangigkeit der 
Items nicht gegeben. 



Lindet dagegen lediglich Lernen im Sinne 
von Uben statt, was im wesentlichen von 
der Anzahl und Qualitat der Aufgaben 
aber nicht von den eigenen Reaktionen 
abhangt, so ist das eine Lorm von Lernen, 
die mit der Annahme der stochastischen 
Unabhangigkeit vereinbar ist. 

Auch bei anderen Tests als Leistungsstests 
kann es zu reaktionskontingenten Veran- 
derungen der zu messenden Personenei- 
genschaft kommen. Ein Beispiel ware ein 
Aggressionstest, bei dem aggressive Reak- 
tionen auf friihere Items einen kathar- 
tischen Effekt haben (Katharsis = Lau- 
terung) und somit die Walu'scheinlichkeit 
aggressiver Reaktionen auf spatere Items 
senken. 

Was folgt aus diesen Uberlegungen fur die 
Zusammenstellung von Items zu einem 
Test? 

Erstens diirfen Items, die dieselbe Perso- 
neneigenschaft messen, nicht logisch 
voneinander abhangig sein. 

Zweitens sollte man moglichst eine Zu- 
fallsabfolge wahlen. Mochte man durch 
eine gezielte Anordnung bestimmte 
Reihenfolge- oder Positionseffekte ausnut- 
zen, so mub sichergestellt sein, dab diese 
Effekte auf alle Personen gleichermaben 
wirken und nicht davon beeinflubt sind, 
wie eine Person bestimmte Items beant- 
wortet. 

Zur Vermeidung unerwiinschter Abhan- 
gigkeiten zwischen den Items gibt es eini- 
ge Tricks. So kann man z.B. Scheinitems 
in den Test einstreuen, 

- die eine befurchtete Kontingenz zwi- 

schen aufeinanderfolgenden Items 
durchbrechen sollen (Puffer-Items), 

- die die zu messende Personlichkeitsei- 

genschaft verschleiern sollen, 
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- oder die ‘ganz nebenbei’ vermutete 
Storvariablen (Tendenz zur sozialen 
Erwunschtheit, Ja-sage-Tendenz) erfas- 
sen sollen. 

Weiterhin kann man sensible Items, deren 
Antwort durch vorangehende Items beein- 
fluBt werden konnte, an den Anfang 
stellen. Und man kann reaktive Items, d.h. 
solche deren Beantwortung Effekte auf 
spatere Itemantworten ausiiben konnen, an 
den Schlufi stellen. 

Soil ein Testinstrument zur Messung meh- 
rerer Personeneigenschaften zusammen- 
gestellt werden, ergeben sich weitere 
Moglichkeiten, wie z.B. die Items ver- 
schiedener Untertests zu mischen. 
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Eine detaillierte Diskussion der Konstruk- 
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Rettig (1992) diskutieren am Beispiel von 
Analogieitems Ansatze einer theoriegelei- 
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Couch & Keniston (1960) gehen speziell 
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‘Ich-weiB-nicht' Kategorie. 



Ubungsaufgaben 

1. Man mochte in einer schriftlichen Be- 
fragung von Ilmen wissen, welche 
ubergeordneten Werte fur Sie in Ihrem 
Leben und fur Ihr Handeln wichtig 
sind. Wie sollten die Items aussehen, 
auf die Sie am ehesten und am ehrlich- 
sten antworten wiirden? Formulieren 
sie 3 Beispielitems mit unterschiedli- 



chem Antwortformat und diskutieren 
Sie Vor- und Nachteile. 

2. Formulieren Sie fur folgende Items 
Distraktoren, die es Ihnen eimoglichen, 
auch Denkfehler zu erfassen: 

Wieviel ist 4 3 (4 hoch 3)? 

Wer war zur Zeit der groBen Koalition 
Bundesprasident? 

Wieviel kostet es, eine 60 Watt Lampe 
5 Stunden brennen zu lassen, wenn die 
Kilowattstunde 20 Pfennige kostet? 

3. Wie groB ist die Ratewahrscheinlich- 
keit bei einern Item mit 6 Antwortka- 
tegorien, wenn genau 3 richtige Ant- 
worten dabei sind (und das Item nur als 
gelost gilt, wenn alle richtigen ange- 
kreuzt werden)? Ist die Ratewahr- 
scheinlichkeit kleiner, gleich oder gro- 
Ber, wenn es genau 4 richtige Ant- 
worten gibt? 

4. Sie mochten als Indikator fur Auslan- 
derfeindlichkeit die Bereitschaft erfra- 
gen, direkt neben einem Asylbewer- 
berheim zu wohnen. Formulieren sie 3 
moglichst unterschiedliche Items fur 
diesen Indikator und diskutieren Sie 
die Vor- und Nachteile. 

5. In einer Stichprobe von Personen mit 
derselben Auspragung der zu messen- 
den Fahigkeit erhalten Sie die folgen- 
den Fosungshaufigkeiten von 2 Items 
A und B: 

A und B gelost: 35% 

A gelost, B nicht: 5% 

B gelost, A nicht: 25% 

Weder A noch B gelost : 35% 

Zeigen Sie, daB hier die Annahme der 
lokalen stochastischen Unabhangigkeil 
nicht gilt. Wie muBten die 4 o.g. pro- 
zentualen Haufigkeiten aussehen, wem 
die Annahme gilt? 
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2.4 Datenerhebung 

Mit Datenerhebung ist in diesem Kapitel 
die Samnilung von Testdaten zum Zwecke 
einer Testentwicklung oder irn Rahmen 
einer Forschungsarbeit gemeint. Fragen 
der Datenerhebung irn Sinne einer Test- 
anwendung fur diagnostische Zwecke 
werden hier nicht behandelt. 

2.4.1 Stichprobenprobleme 

Jede Stichprobenziehung fangt mit der 
Definition der Population an, iiber die die 
Stichprobe etwas aussagen soil. Wie bei 
jeder empirischen Untersuchung ist auch 
bei einer Testentwicklung eine reprasen- 
tative Stichprobe optimal. Reprasentativi- 
tat bedeutet, dab alle denkbaren Variablen 
in der Stichprobe genauso verteilt sind wie 
in der Population. Eine representative 
Stichprobe ist sornit nur durch eine vollig 
zufdllige Auswahl der Individuen aus der 
Population herzustellen. 

Eine solche Zufallsauswahl ist in der Pra- 
xis so gut wie nie erreichbar und es stellt 
sich daher die Frage, welche Eigenschaf- 
ten einer reprasentativen Stichprobe fur 
eine Testentwicklung wirklich wichtig 
sind und mit welcher Art der Stichpro- 
benziehung diese Eigenschaften gewonnen 
werden konnen. 

Hier muB wieder nach den Zielen der 
Testentwicklung unterschieden werden: 

Soil der Test normiert werden (s. Kap. 
2.1.5), so muB die Verteilung der zu 
messenden Personenvariable in der 
Stichprobe vollig identisch sein mit der 
Verteilung in der Population. 



In Abbildung 12 symbolisiert die durchge- 
zogene Linie die Haufigkeitsverteilung der 
MeBwerte X in der Population und die 
gestrichelte Linie die Stichprobenvertei- 
lung. 




Abbildung 12: Populations- und Stichproben- 
verteilung 



So ein nahezu identisches Abbild der 
Populationsverteilung des zu messenden 
Merkmals ist tatsachlich nur notwendig, 
wenn Nonnen fiir die Testinterpretation 
entwickelt werden sollen (s. Kap. 2.1.5 
und 6.5). Dann sind allerdings sogar oft 
mehrere representative Stichproben fur 
verschiedene Teilpopulationen erforder- 
hch, je nachdem fiir welche Referenz- 
populationen getrennte Normen ge- 
wiinscht werden. 

Die Art der Stichprobenziehung soli in 
diesem Fall lediglich sicherstellen, daB die 
zur Selektion benutzten Variablen nicht 
mit der zu messenden Variable zusam- 
menhangen. So darf z.B. die Tatsache, daB 
jemand ein Telefon besitzt, nicht mit der 
zu messenden Eigenschaft zusammen- 
hangen, wenn die Stichprobe durch tele- 
fonische Anfrage rekrutiert werden soli 
(aus Telefonbiichern lassen sich leicht 
Zufallsstichproben ziehen). 

Sollen demgegenuber keine Nomien ent- 
wickelt werden, sondern soil ‘lediglich' ein 
mefigenauer und valider Test entwickelt 
werden, so schwachen sich die Erfor- 
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dernisse an die Verteilung der Eigenschaft 
in der Stichprobe deutlich ab. Es sind im 
wesentlichen zwei Dinge zu gewahrlei- 
sten: 

Erstens, sollte die Variation der zu mes- 
senden Eigenschaft in der Stichprobe ge- 
genuber der Populationsvariation nicht 
eingeschrankt sein. Dieser Punkt ist 
besonders wichtig, wenn eine externe 
Validitat des Tests berechnet wird. Jede 
Einschrankung der Varianz der MeBwerte 
bewirkt namlich eine Unterschatzung der 
Validitat. 

Dies wird in der folgenden Abbildung 
veranschaulicht. 

Validitats- 

kriterium 



T j MeBwert 

Stichprobe 

Abbildung 13: Korrelation zwischen MeBwert und 
V aliditatskriterium 

Die Graphik zeigt die Korrelation zwi- 
schen MeBwerten und extemem Validi- 
tatskriterium in der Population. Innerhalb 
des eingeschrankten Variationsbereiches 
der Stichprobe fallt die Punktewolke we- 
sentlich ‘runder’ und damit die Korrelation 
(sprich: externe Validitat) niedriger aus. 

Obwohl die Konsequenzen gegen die In- 
tentionen des Testkonstrukteurs gerichtet 
sind, ist die Varianzeinschrankung wohl 
einer der hdufigsten Felder, der bei der 
Stichprobenziehung begangen wird. Man 
denke nur an die vielen Testentwick- 
lungen, die ausschlieBlich an studenti- 
schen Stichproben vorgenommen werden. 



Eine eingeschrankte Varianz der zu mes- 
senden Eigenschaft in der untersuchten 
Stichprobe wirkt sich auch auf andere Be- 
rechnungen im Rahmen einer Testent- 
wicklung nachteilig aus. So kann die Qua- 
litat des Items nicht so gut beurteilt wer- 
den, wenn die Varianz der latenten Varia- 
ble eingeschrankt ist (vgl. Kap. 6.2.1). 

Fur die Stichprobenziehung kann man 
daraus die Konsequenz ableiten, mehrere 
moglichst unterschiedliche Teilstichpro- 
ben zu untersuchen, um so die Variation 
zu erhohen. 

Der zweite Punkt, der auch bei einer nicht- 
reprasentativen Stichprobe gewahrleistet 
sein sollte, besteht darin, daB die Art der 
Abhangigkeit von Testverhalten und Per- 
soneneigenschaft in der Stichprobe nicht 
untypiscli fur die Art der Abhangigkeit in 
der Gesamtpopulation ist. Entwickelt man 
etwa einen Angstfragebogen ausschlieB- 
lich an einer Stichprobe von Personen mit 
akademischer Bildung, so ist damit viel- 
leicht nicht die Variation der Eigenschaft 
‘Angstlichkeit’ eingeschrankt. Es kann aber 
sein, daB der rationale Umgang mit dem 
Phanomen ‘Angst’ und somit die Bezie- 
hung von Angstlichkeit und Testverhalten 
in dieser Stichprobe anders aussieht als in 
anderen Teilpopulationen. 

Der letztgenannte Punkt betrifft primar die 
Sicherstellung der internen Validitat des 
Tests. Diese ist aber Voraussetzung fur 
jegliche sinnvolle Verwendung des Tests. 

AbschlieBend noch ein paar Antworten auf 
die zentrale Frage: Wie groji soil die 
Stichprobe sein? 

Diese Frage laBt sich unter drei Gesichts- 
punkten beantworten, je nachdem welches 
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Ziel oder Giitekriterium eines Tests man 
vor Augen hat: 

- die Priifung der Modellgeltung (die in- 
terne Valiclitat des Tests) 

- die Genauigkeit der Parameterschat- 

zungen 

- die Entwicklung von Normen. 

Strebt man eine moglichst exakte Priifung 
der Modellgeltung an, so kann das leicht 
zu astronomischen StichprobengroBen 
fiihren. So lautet die (Maximal-) Antwort 
auf die o.g. Frage, daB man ein Mehr- 
f aches (z.B. 5-faches) der Anzahl mogli- 
cher Antwortmuster in einem Test braucht. 

Diese Antwort hat folgenden Hintergrund: 
Die theoretisch befriedigendste Methode, 
ein Testmodell vollstandig auf Giiltigkeit 
zu priifen, verlangt, daB man die heoh- 
achteten Hdufigkeiten unterschiedlicher 
Antwortmuster mit den vom Modell 
vorhergesagten Hdufigkeiten alter mogli- 
chen Antwortmuster vergleicht. 



Besteht ein Test z.B. aus zehn Items mit je 
zwei Antwortmoglichkeiten, so gibt es 2 10 
= 1024 unterschiedliche Antwortmuster: 



Item: 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


1 


0 


0 


0 


0 


0 


0 


0 


0 


0 


0 


2 


0 


0 


0 


0 


0 


0 


0 


0 


0 


1 


3 


0 


0 


0 


0 


0 


0 


0 


0 


1 


0 


4 


0 


0 


0 


0 


0 


0 


0 


0 


1 


1 


5 


0 


0 


0 


0 


0 


0 


0 


1 


0 


0 


6 


0 


0 


0 


0 


0 


0 


0 


1 


0 


1 


7 


0 


0 


0 


0 


0 


0 


0 


1 


1 


0 














1020 


1 


1 


1 


1 


1 


1 


1 


0 


1 


1 
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1 


1 


1 


1 


1 


1 


1 


1 


0 


0 


1022 


1 
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1 


1023 


1 


1 


1 


1 


1 


1 


1 


1 


1 


0 


1024 


1 


1 


1 


1 


1 


1 


1 


1 


1 


1 



Ein Vergleich von theoretisch erwarteten 
und beobachteten Hdufigkeiten der Ant- 
wortmuster wiirde voraussetzen, daB jedes 
dieser 1024 Antwortmuster eine reelle 
Chance hatte beobachtet zu werden. Dies 
ist wohl erst bei ein paar tausend ge- 
testeten Personen der Fall. 

Natiirlich gibt es auch ‘sparsamere’ For- 
men, die Geltung eines Testmodells zu 
testen, aber dann wird die Antwort auf die 
Frage ‘Wieviel Personen?’ zur Ermessens- 
sache. 

Eine sparsamere Form der Geltungs- 
priifung besteht darin, die Stichprobe bei 
der Testauswertung in zwei Hdlften zu tei- 
len und die Parameterschatzungen in bei- 
den Teilstichproben miteinander zu ver- 
gleichen. Diese Methode setzt voraus, daB 
die halbe StichprobengroBe ausreicht, die 
Modellparameter zu schatzen. Da dies bei 
vielen Modellen schon mit etwa 50 Per- 
sonen moglich ist, kommt man zu einem 
minimalen Stichprobenumfang von ca. 
100 Personen. 

Hat man sehr starke a priori Hypothesen 
(a priori (lat.) = im vorhinein), z.B. iiber 
die Rangordnung der Schwierigkeiten der 
Testitems, so reichen auch 40-50 Per- 
sonen aus. Die Priifung der intemen Vali- 
ditat des Modells kann dann iiber den 
Vergleich der empirisch geschatzten Mo- 
dellparameter mit den hypothetischen 
erfolgen. 

Innerhalb dieses Spielraumes von 50 bis 
5000 Personen kann man nur differen- 
ziertere Aussagen machen, wenn man sich 
auf ein spezielles Testmodell bezieht. So 
reichen fiir Modelle mit einer quan- 
titativen Personeneigenschaft im allgemei- 
nen etwas kleinere Stichprobenumfdnge 




80 



2. Testkonstruktion 



aus als fur Modelle mit kategorialer Per- 
soneneigenschaft. 

Geht man von der Genauigkeit der Para- 
meter schatzungen aus, so lassen sich 
Empfehlungen fur StichprobengroBen 
ebenfalls nur modellspezifisch ableiten. 
Anzumerken ist hier, daB fur die Genauig- 
keit der MeBwerte der Items ausschlieB- 
lich die Anzahl der Personen maBgeblich 
ist. Umgekehrt wird die Genauigkeit der 
PersonenmeBwerte ausschlieBlich von der 
Anzahl der Items beeinfluBt. 

Insofern ist die Erreichung einer hohen 
MeBgenauigkeit (Reliabilitat) des Tests 
keine Frage der GroBe der Personen- 
stichprobe. Man kann jedoch Anspriiche 
an die Genauigkeit der Itemmefiwerte 
stellen und daran die StichprobengroBe 
orientieren. In welcher Weise die Stich- 
probengroBe mit der MeBgenauigkeit der 
Items zusammenhangt, wird in Kapitel 6. 1 
behandelt. 

Nimmt man die Ableitung von Normen als 
Kriterium fur die Bestimmung der Stich- 
probengroBe, so stellt sich zunachst die 
Frage, wie differenziert man denn die 
Normen haben mochte. Im einen Extrem 
kann man allein daran interessiert sein, 
wie groB der Mittelwert einer quantitativen 
Personeneigenschaft in einer Referenzpo- 
pulation ist. Hier konnen schon 20 bis 30 
Personen ausreichen, um den Populati- 
onsmittelwert einigermaBen genau zu be- 
stimmen. 

Im anderen Extrem kann man z.B. alle 
100 Prozentmarken der Verteilung der 
MeBwerte in einer Population bestimmen 
wollen. Hierfiir sind dann schon ca. 2000 
Personen erforderlich; das ist eine Stich- 
probengroBe, die sich auch fur Meinungs- 
umfragen und Wahlprognosen als hinrei- 



chend erwiesen hat. Nicht zuletzt muB 
beriicksichtigt werden, fur wieviele Teil- 
populationen, die z.B. nach Geschlecht, 
Alter oder Bemfsgruppe aufgeschliisselt 
sind, Normtabellen entwickelt werden sol- 
len. Hier lassen sich keine allgemeingiil- 
tigen Empfehlungen geben. 

2.4.2 Durchftihrungsprobleme 

Bei der Durchfiihrung der Datenerhebung 
sind einige Probleme zu bedenken, die es 
bei einem Einsatz des Tests zu indivi- 
dualdiagnostischen Zwecken so nicht gibt. 

Hierzu gehort zunachst die Aufkldrung 
iiber den Gegenstand der Befragung. In 
vielen Fallen ist es sinnvoll, wenn die be- 
fragten Personen moglichst wenig iiber 
den Gegenstand der Befragung wissen, 
damit die Itemantworten unbeeinflufit 
bleiben von Vorkenntnissen. Das bewuBte 
Verschweigen des eigentlichen Gegen- 
stands einer Befragung oder gar die Vor- 
spiegelung einer falschen Testabsicht wirft 
jedoch ethische Probleme auf. 

Wie bei vielen Experimenten, bei denen 
man vor demselben Problem steht, wird es 
im Allgemeinen fur ethisch vertretbar ge- 
halten, wenn man die Befragten vorher 
infomiiert, dap man den Gegenstand der 
Befragung vor der Testbearbeitung nicht 
offenbaren kann, aber ankiindigt, daB man 
dies im Anschlufi nachholt. Eine falsche 
Cover-story erfordert in jedem Fall eine 
nachtragliche Richtigstellung . 

Neben den ethischen Problemen hat ein 
Verschweigen oder eine Falschinfoimation 
auch den Nachteil, daB falschliche Vermu- 
tungen iiber den Befragungsgegenstand 
die Itemantworten ebenso nachteilig oder 
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noch ungiinstiger beeinflussen konnen, 
wie die richtige Information. 

Ein Beispiel ware, wenn man einen Fra- 
gebogen zu moralischen Wertvorstellun- 
gen damit zu kaschieren versucht, dab 
man vorgibt, es handele sich um einen 
Fragebogen zum politischen Konservati- 
vismus. Die Testergebnisse iiber die Mo- 
ralvorstellungen hangen dann auch davon 
ab, wie konservativ sich die Befragten 
darstellen mochten. 

Eine Information iiber den Sinn der Befra- 
gung ist unter anderem auch deshalb not- 
wendig, um eine Bereitschaft zur Testbe- 
arbeitung zu schaffen, die sogenannte 
Testmotivation. Jeder Befragte braucht 
irgendeinen Grund, eine Motivation, den 
Test moglichst sorgfaltig und ehrlich zu 
beantworten. 

Ein solches Motiv ist bei der spateren in- 
dividualdiagnostischen Verwendung eines 
Tests in der Regel automatisch gegeben. 
Bei der Testentwicklung mittels zufalliger 
Personenstichproben ist diese Testmotiva- 
tion erst herzustellen. 

Da die ethischen Richtlinien fur die 
Durchfuhrung von Humanexperimenten 
(und um solche handelt es sich bei Tests) 
verlangen, dab die Teilnahme freiwiUig 
ist, sollte man sich der Bereitschaft der zu 
befragenden Personen vorher vergewissem 
und gegebenenfalls Anreize zur Bearbei- 
tung des Tests schaffen. Inwieweit die 
dabei induzierte Testmotivation die Be- 
aut wort ung der Items beeinflussen kann, 
ist im Einzelfall abzuwagen. 

Ein weiterer Punkt, in dem sich die Ent- 
wicklungsphase eines Tests von seiner 
individualdiagnostischen Verwendung un- 
terscheidet, liegt in der Zusicherung der 



Anonymitdt. Dabei ist die Zusicherung 
leichter gegeben als eingehalten, denn es 
miissen organisatorische Mafinahmen 
getroffen werden, um zu verhindern, dab 
der Testleiter im nachhinein die Identitat 
der Befragten rekonstruieren kann (nicht 
zu viele demographische Variablen, wie 
Alter, Geschlecht, Beruf etc. erfragen). 

Schlieblich mtissen die Bearbeitungshin- 
weise fur den Test so einfach und so genau 
wie moglich formuliert werden. Hierzu 
gehoren im allgemeinen 

- ein oder zwei Itembeispiele mit mogli- 
cher Antwort 

- eine Angabe, wieviel Zeit die Bearbei- 
tung insgesamt in Anspruch nimmt, 

- Hinweise, was man tun soil, wenn man 
ein Item nicht beantworten will, und 

- bei Leistungstests, ob man bei zu 

schweren Items die Antwort raten oder 
das Item lieber uberspringen soli. 

Spezielle Alien der Datenerhebung brin- 
gen auch spezifische Durchfiihrungspro- 
bleme mit. So stellt sich bei einer postali- 
schen Befragung das Problem, eine hohe 
Riicklaufquote zu erreichen. Damnter ver- 
steht man den prozentualen Anteil zuriick- 
gesandter Fragebogen an der Gesamtzahl 
versandter Fragebogen. Je nach Umfang 
und Inhalt der Fragebogen mub man 
manchmal schon mit einer Riicklaufquote 
von 50% zufrieden sein. 

Das Problem einer geringen Rucklauf- 
quote ist nicht die Verkleinerung des 
Stichprobenumfangs. Diese kann dadurch 
ausgeglichen werden, dab man von vorn- 
herein mein - Personen anschreibt als be- 
notigt werden. Das Problem stellt die 
sogenannte Eigenselektion dar. Damit ist 
gemeint, dab die befragten Personen selbst 
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entscheiden, ob sie den Fragebogen beant- 
worten und zuriicksenden. Die Kriterien, 
nach denen diese Auswahl (Selektion) 
erfolgt, hangen in der Regel mit dem 
Gegenstand der Befragung zusammen, so 
dab die zuriickerhaltenen Fragebogen eine 
verzerrte Stichprobe des Antwortver- 
haltens darstellen. 

Hat man den befragten Personen Anony- 
mitat zugesichert, labt sich diese Ver- 
zeixung auch nicht dadurch beeinflussen, 
dab man saumige Personen anmahnt oder 
Ersatzpersonen sucht, die in demogra- 
phischen Merkmalen vergleichbar sind. 

Telefonische Befragungen eignen sich na- 
turgemab nur fur Erhebungen von gerin- 
gem zeitlichen Umfang. Sie werden insbe- 
sondere irn Bereich soziologischer Unter- 
suchungen eingesetzt. 

Spezielle Moglichkeiten und Probleme er- 
geben sich auch durch den Einsatz des 
Computers bei der Testvorgabe. Das com- 
puterunterstutzte Testen stellt eine Form 
der Datenerhebung dar, die es erlaubt, die 
Auswahl der Testitems individuell auf 
jede Person abzustimmen. Die hochste 
Stufe dieses mabgeschneiderten Testens 
(taylored testing) besteht darin, jede 
Itemantwort sofort zu verarbeiten und fiir 
die Auswahl des nachsten Items zu nutzen. 

Das Prinzip der Passung von 
Itemschwierigkeit und Personenfahigkeit 
(s. Kap. 2.2.4) kann dadurch optimal 
realisiert werden, dab schon nach wenigen 
bearbeiteten Items eine erste Schatzung 
der Fahigkeit der Person vorgenonmren 
wird. Die folgenden Items werden dann so 
ausgewahlt, dab die betreffende Person in 
etwa eine 50%-ige Losungswahrschein- 
lichkeit hat. Auf diese Weise kann eine re- 
lativ hohe Mebgenauigkeit realisiert wer- 



den und die getesteten Personen miissen 
sich nicht mit zu leichten oder zu schwe- 
ren Items beschaftigen. 

Auberdem dient das computerunterstiitzte 
Testen der Standardisierung der Test- 
durchfiihrung und damit der Objektivitat 
der Ergebnisse. Auf die vielen technischen 
Aspekte der Computernutzung beirn Te- 
sten kann hier jedoch nicht eingegangen 
werden. Mchrcre Beitrage zum computer- 
unterstiitzten Testen finden sich in dem 
Sammelband von Kubinger (1988). 



Literatur 

Allgemeine Fragen der Stichproben- 
ziehung werden in Lehrbiichern der 
empirischen Forschung behandelt, s. z.B. 
Bortz (1984), Schnell et al. (1989). Auf 
einige Aspekte der Testdarbietung geht 
Fienert (1969) ein. 



Ubungsaufgaben 

1. Wie wirkt sich eine eingeschrankte Va- 
rianz des zu messenden Merkmals in 
der Stichprobe auf die Validitat und die 
Reliabilitat des Tests aus? Ziehen Sie 
zur Beantwortung der Frage die Defini- 
tion von Reliabilitat in Kapitel 2.1.2 
heran. 

2. Sie haben einen Test mit 3 dichoto- 
men, 3 dreikategoriellen und 3 vierka- 
tegoriellen Items. Wieviele Personen 
miibte Ihre Stichprobe umfassen, damit 
alle moglichen Antwortmuster minde- 
stens einmal beobachtet werden kon- 
nen? 
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2.5 Kodierung der Antwor- 
ten 

Den Vorgang, die Itemantworten der be- 
fragten Personen aus dem Testheft oder 
dem Antwortblatt derart in Zahlen zu ver- 
schliisseln, dab diese Daten dann mit 
einem entsprechenden Testmodell analy- 
siert werden konnen, nennt man Kodie- 
rung der Itemantworten. Die Kodierung 
der Antworten ist bereits ein Vorgang, bei 
dem beriicksichtigt werden muB, wie die 
Daten ausgewertet werden sollen. Im 
Zweifelsfalle empfiehlt es sich, moglichst 
die ganze, in den Antworten vorhandene 
Information differenziert zu kodieren, 
denn eine Rekodiemng durch Zusammen- 
legen von Kategorien ist jederzeit mog- 
lich. Der umgekehrte Weg, d.h. eine 
nachtragliche Ausdifferenzierung von zu 
groben Kategorien ist dagegen nur unter 
erheblichem Aufwand moglich. 

Fiir Items mit freien Antwortformaten laBt 
sich der ProzeB der Kodiemng in zwei 
Phasen unterteilen, namlich die Zuord- 
nung der freien Antworten zu bestimmten 
Kategorien und die Zuordnung von Zah- 
lencodes zu diesen Kategorien. Man be- 
zeichnet den ersten Schritt als Kategori- 
sierung oder mit einem alteren Begriff als 
Signierung der freien Antworten. Der 
Begriff Signierung stammt aus der Aus- 
wertung projektiver Tests, bei denen die 
Kategorisierung der Itemantworten ein 
holies MaB an psychologischer Schulung 
erfordert. Die beiden Phasen der Transfor- 
mation einer Itemantwort in die Antwort- 
variable zeigt Abbildung 14. Die dritte 
Phase ist die Transformation der Antwort- 
variablen in einen MeBwert mittels eines 
Testmodells (s. Kap. 3) und der Schatzung 
seiner Parameter (Kap. 4). 



Itemantworten: freie Antworten 

Signierung 

>' Kategorisierung 

Antwortkategorien: A,B,C 

X Kodierung 

Antwortvariable: X vi 

sL Parameterschatzung 

MeBwert: 0 V 



Abbildung 14: Phasen der Transformation einer 
freien Antwort in einen MeBwert 

Das Ziel der beiden ersten Phasen besteht 
darin, fiir jedes Item i eine Antwortvaria- 
ble X vi ZU erhalten. 



Was ist eine Variable? 

In der Sprache der Mengenlehre versteht 
man unter einer Variable eine eindeutige 
Zuordnung (Abbildung) einer Menge von 
Objekten zu einer Menge von Zahlen. Das 
bedeutet, daB dieselbe Zahl zwar mehreren 
Personen (Objekten) aber nicht dieselbe 
Person mehreren Zahlen zugeordnet 
werden kann: 



Das Wesen einer Variable besteht darin, 
jedem Objekt, in diesem Fall: jeder Per- 
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son, genau einen Wert aus einer Menge 
von Zahlen zuzuordnen. 

Eine Antwortvariable orclnet jeder 
Person hinsichtlich jeder Itemant- 
wort genau einen Wert zu. 

Das hat zum Beispiel zur Konsequenz, daB 
auch Mehrfachantworten auf ein Item nur 
durch eine Kodezahl verschlusselt werden 
diirfen, es sei denn man unterscheidet 
mehrere Signierungsaspekte (s. Kap. 
2.5.1) 

Die beiden folgenden Unterkapitel gehen 
getrennt auf den ProzeB der Signierung 
und der Kodierung ein. 

2.5.1 Die Signierung freier 
Antworten 

Freie Antworten konnen aus Bildern, 
Worten, Satzerganzungen, verbalen Bild- 
inteipretationen oder ahnlichem bestehen. 
Eine erste Frage betrifft die Anzahl der 
Signierungsaspekte, hinsichtlich derer jede 
Antwort signiert oder kategorisiert werden 
soil. Im einfachsten Fall handelt es sich 
nur um einen einzelnen Signierungsaspekt, 
also z.B. welche Art von Aggressivitat in 
der Itemantwort zum Ausdruck kommt. 
Ein Beispiel fur mehrere Signierungs- 
aspekte ist die Auswertung freier Text- 
produktionen nach Textlange, Merkmalen 
des Satzbaus und nach Inhalten des 
Textes. Jeder Signierungsaspekt ergibt in 
der Regel eine Antwortvariable. 

Fur die weitere Auswertung ist es sinn- 
voll, daB die Signierungsaspekte logisch 
unabhdngig voneinander sind, d.h. daB die 
Zuordnung einer Itemantwort zu einer 
Kategorie des einen Aspektes nicht zur 
Folge haben darf, daB bestimmte Katego- 



rien eines anderen Signierungsaspektes 
auftreten mussen oder nicht auftreten kon- 
nen. Derartige logisch voneinander ab- 
hangige Signierungsaspekte sind schwie- 
rig auszuwerten, da die logischen Abhan- 
gigkeiten zu statistischen Abhangigkeiten 
fiihren, welche keine empirischen Gege- 
benheiten widerspiegeln, sondem nur die 
Definition der Signierungsaspekte. 

Innerhalb jedes Signierungsaspektes gilt 
es, einen Satz von mindestens zwei Kate- 
gorien derartig klar und eindeutig zu de- 
finieren, daB jede Itemantwort in genau 
eine dieser Kategorien entfallt bzw. ihr 
zuordenbar ist. Bisweilen werden auch 
Mehrfachsignierungen vorgenommen, d.h. 
Zuordnungen der Itemantwort zu mehr als 
einer Kategorie desselben Signierungs- 
aspektes. Solche mehrfach signierten 
Itemantworten mussen aber im nachsten 
Schritt der Kodierung derart verschlusselt 
werden, daB tatsachlich eine Antwort- 
variable entsteht (s. o.). 

Das Kategorienschema, welches man fur 
einen Signierungsaspekt entwickelt, kann 
sehr unterschiedlich aussehen. Es reicht 
von lediglich dichotomen Antwortkatego- 
rien (ein bestimmtes Merkmal ist in der 
Itemantwort enthalten oder nicht), iiber 
qualitativ unterschiedliche Kategorien 
(Merkmal A, B oder C ist in der Antwort 
enthalten) bis hin zu mehrfach gestuften 
Ratingskalen, anhand derer die Itemant- 
worten beurteilt werden. Generelle Emp- 
fehlungen, welche Art von Kategorien- 
schema fur welche Signierungsaspekte am 
sinnvollsten sind, lassen sich schwer 
geben. Ein wichtiges formales Kriterium 
besteht darin, daB das Kategorienschema 
einfach genug sein muB, damit eine hin- 
reichende Signierobjektivitat erreicht wer- 
den kann. 




2.5 Kodierung der Antworten 



85 



Unter Signierobjektivitdt versteht man das 
AusmaB, in deni zwei voneinander unab- 
hiingig arbeitendc Signierer die Itemant- 
worten denselben Antwortkategorien zu- 
ordnen. Die Signierobjektivitat muB bei 
jeder Testentwicklung kontrolliert, d.h. 
berechnet werden und gilt als Gutekrite- 
rium des Tests (vgl. Kap 2.1.3). Die Be- 
rechnung der Signierobjektivitat geschieht 
mittels eines geeigneten Ubereinstim- 
mungskoeffizienten. 

Ausgangspunkt fur die Berechnung eines 
Ubereinstimmungskoeffizienten ist eine 
sog. Ubereinstimmungsmatrix, in der die 
Haufigkeiten stehen, mit denen zwei Sig- 
nierer die Antwortkategorien zugeordnet 
haben. 

Beispiel 

Die Ubereinstimmungsmatrix 

Signierer 2 
A B C D E 
A 10 1 1 0 Tj 14 

B 0 15 1 0 0 16 

Signierer 1C 1 1 20 2 2 26 

D 3 0 0 8 0 11 

E 0 2 0 2 13 17 

14 19 23 12 16 84 
gibt an, daB von den 84 zu signierenden 
Itemantworten 10 ubereinstimmend von 
beiden Signierern der Kategorie A, 15 
Antworten der Kategorie B etc. zugeord- 
net wurden. Die Ubereinstimmung ist 
perfekt, wenn nur die Felder der Haupt- 
diagonale in dieser Matrix besetzt sind. 
Tm vorliegenden Fall hat z.B. Signierer 2 
vier Antworten anderen Kategorien zu- 
gewiesen, die Signierer 1 der Kategorie 
A zugeordnet hat (namlich eine in B, 
zwei in C und eine in E). Aus den Rand- 
summen der Matrix ist ersichtlich, daB 
Signierer 2 die Kategorie B haufiger und 
Kategorie C seltener verwendet als Si- 
gnierer 1. 



Eine solche Ubereinstimmungsmatrix 
kann man itemspezifisch aufstellen (in 
diesem Fall waren die 84 Kodiemngen im 
obigen Beispiel auf 84 Personen und nur 
ein Item bezogen) oder fiir me lire re bzw. 
alle Items (z.B. konnte es sich um die 
Antworten von 21 Personen auf 4 Items 
handeln). Ob die Signierobjektivitat item- 
spezifisch oder fiir alle Items gemeinsam 
berechnet werden sollte, hangt davon ab, 
ob man besondere Schwierigkeiten der 
Signierung bei einzelnen Items erwartet. 
In diesem Fall sollte die Objektivitatskon- 
trolle itemspezifisch erfolgen, so daB man 
Items mit einer zu geringen Signierobjek- 
tivitat bei einer Testrevision modifizieren 
oder eliminieren kann, bzw. deren Ant- 
worten bei der Testauswertung unberiick- 
sichtigt laBt. 

Es gibt mehrere Ubereinstimmungskoeffi- 
zienten, die man anhand einer solchen 
Matrix berechnen kann, von denen hier 
nur einer dargestellt werden soil. Es han- 
delt sich um Cohen’s K (Kappa), der fol- 
gendermaBen definiert ist 



wobei p die relativen Haufigkeiten der 
iibereinstinmienden Kategorisiemngen be- 
zeichnet: 




Die Haufigkeiten in den Diagonalfeldem 
werden mit f xx bezeichnet und die Anzahl 
der kodierten Itemantworten mit N. 

Mit p e werden die zu erwartenden Hau- 
figkeiten von Ubereinstimmungen be- 
zeichnet, die allein per Zufall auftreten, 
d.h. wenn beide Signierer wiirfeln wurden. 
Diese erwarteten Haufigkeiten lassen sich 
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anhand der Randsummen f lx und f 2 x der 
Matrix berechnen 

I fix f 2 x 

r, 



Zur Berechnung von k benotigt man also 
nur die Haufigkeiten aus der Hauptdiago- 
nale und die Randsummen der Uberein- 
stimmungsmatrix. 



Beispiel 

Fiir die oben aufgefiihrte Ubereinstim- 
mungsmatrix ergibt sich fiir p der folgende 
Wert: 

p = (10+15+20+8+13) / 84 = 0.7857 



Diese Zahl besagt, daB die beiden Signie- 
rer 78,5 % aller Itemantworten uberein- 
stimmend signiert haben. Unter Zufalls- 
bedingungen wiirde bei den gegebenen 
Randverteilungen die folgende Uberein- 
stimmung erreicht: 

p e = (14- 14+16- 19+26-23+1 1 12+17- 16) 

/ 84 2 = 0.213 



Der Koeffizient k korrigiert die beobacht- 
tete Ubereinstimmung urn diesen Zufalls- 
effekt: 



K = 



0.785-0.213 

1-0.213 



=0.727 . 



Dieser Koeffizient k beriicksichtigt nicht, 
welche andere Kategorie ein Signierer 
wahlt, wenn er nicht mit einern anderen 
Signierer iibereinstinmit: Wie die Haufig- 
keiten in den Feldern auBerhalb der Dia- 
gonale verteilt sind, geht in die Berech- 
nung nicht ein. Dies ist dann problema- 
tisch wenn die Kategorien eine Rangotxl- 
nung darstellen, also eine Vertauschung 
von B und D gravierender ist als eine 
Vertauschung von B und C. 



Das ist relativ haufig gegeben, namlich 
immer dann, wenn mittels abgestufter 
Kategorien das Ausmafi signiert wil'd, in 
dem eine freie Antwort z.B. Aggression 
oder Angst ausdriickt. Fiir diese Falle ge- 
ordneter Signierungskategorien kann ein 
gewichteter K-Koeffizient berechnet wer- 
den, der eine unterschiedliche Signierung 
in benachbarten Kategorien weniger stark 
gewichtet als eine Signierung in weiter 
auseinander liegenden Kategorien. 

Um diese Gewichte in dem Ubereinstim- 
mungsmaB K beriicksichtigen zu konnen, 
wil'd K zunachst so transformiert, daB es 
anhand der Haufigkeiten auBerhalb der 
Hauptdiagonalen berechnet wil'd und nicht 
anhand der Diagonalfelder selbst: 

1-P 
1-Pe 

1 X- 

n ^ f *y 

7j 2 X f lx hy 

Im Zahler des zweiten Summanden steht 
die relative Haufigkeit der nicht iiberein- 
stinmienden Kategorisierungen, also die 
Summe aller Haufigkeiten f xy aus Zeile x 
und Spalte y der Ubereinstimmungsma- 
trix, wobei x und y nicht identisch sein 
dai'f, also x ^ y. Im Nenner stehen die 
unter Zufallsbedingungen zu erwartenden 
Nicht-Ubereinstinimungen, wobei f lx die 
Randhaufigkeit der Zeile x (also von Si- 
gnierer 1) und f 2y die Randhaufigkeit der 
Spalte y (also von Signierer 2) bezeichnet. 

In dieser Schreibweise von K lassen sich 
jetzt leicht Gewichte einfiihren, um den 
‘Schweregrad’ einer Abweichung der bei- 
den Signierer einzubeziehen: 



K = 1 

( 2 ) 

= 1 
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N ' X w xy 



xy A xy 

(3) K w = 1 - Y y - - 

2 2 w xy Ox Sty 
x*y 



Der Index w von K steht fur ‘weighted' 
also gewichtetes Kappa und die Gewichte 
w xy sind so zu wahlen, daB ein groBeres 
Gewicht eine gravierendere Abweichung 
bezeichnet. Bilden die Signierungskate- 
gorien eine Rangordnung und kann man 
weiterhin davon ausgehen, daB die Ab- 
stande zwischen den Kategorien gleich 
groB sind, so verwendet man als Gewicht 
die quadrierten Abweichungen. Hierfur 
werden die Kategorien mit aufsteigenden 
ganzzahligen Werten kodiert, also z.B. mit 
den Werten 1 bis 5. Die Gewichte lauten 
dann: 

(4) w xy =(x-y) 2 . 



Fur das Datenbeispiel mit fiinf Signie- 
mngskategorien sieht die Matrix der Ge- 
wichte wie folgt aus: 





A 


B 


C 


D 


E 


A 


0 


1 


4 


9 


16 


B 


1 


0 


1 


4 


9 


C 


4 


1 


0 


1 


4 


D 


9 


4 


1 


0 


1 


E 


16 


9 


4 


1 


0 



Prinzipiell lassen sich auch andere Ge- 
wichte wahlen, jedoch bedarf es dafiir 
recht praziser Vorstellungen, wie ahnlich 
sich die Kategorien sind und wie ‘zulassig’ 
daher Verweehslu ngen sind. Wahlt man 
die quadrierten Abweichungen (4) als Ge- 
wichte, so ist k w bei groBern N identisch 
mit der Intraklassen-Korrelation, einem 
UbereinstimmungsmaB, das man fiir inter- 
vallskalierte Signiemngskategorien ver- 
wendet (s. Fleiss und Cohen (1973)). 



Datenbeispiel 

Fiir die oben genannte Ubereinstim- 
mungsmatrix soil das gewichtete Kappa 
mit den quadrierten Abweichungen als 
Gewichte berechnet werden. Hierfur 
werden zunachst die Zellen der Uber- 
einstimmungsmatrix mit den Zellen der 
Gewichtematrix multipliziert: 





A 


B 


C 


D 


E 


A 


0 


1 


8 


0 


16 


B 


0 


0 


1 


0 


0 


C 


4 


1 


0 


2 


8 


D 


27 


0 


0 


0 


0 


E 


0 


18 


0 


2 


0 



Da die Hauptdiagonalelemente dieser 
Matrix durch das Gewicht 0 aus der 
Gewichtematrix ohnedies gleich 0 sind, 
ergibt die Sunime aller Matrixelemente, 
88, multipliziert mit N = 84 den Zahler- 
ausdmck von K w , 88-84 = 7392. Den 
Nenner ergibt die Summe aller Elemente 
einer Matrix, in deren Zellen die erwar- 
teten Haufigkeiten, f lx f 2x , multipliziert 
mit den Gewichten stehen: 





A 


B 


C 


D 


E 


A 


0 


266 


4322 


9.168 


16.224 


B 


224 


0 


368 


4.192 


9.256 


C 


4.364 


494 


0 


312 


4-416 


D 


9-154 


4 209 


2 5 3 


0 


176 


E 


16.238 


9.323 


4.391 


204 


0 



Diese Summe lautet 25374, so daB sich 
fiir k w der folgende Wert ergibt: 

7392 

K w = 1- 25374 = °- 709 - 

Die Ubereinstimmung zwischen den bei- 
den Signierem ist demnach unter der 
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Annahme geordneter Kategorien mit 
gleichen Abstanden etwas niedriger als 
unter der Annahme nominalskalierter 
Kategorien (0.727). Dies liegt daran, daB 
den 7 Verwechslungen zwischen benach- 
barten Kategorien (s. die Ubereinstim- 
mungsmatrix) immerhin 10 Verwechs- 
lungen zwischen weiter auseinanderlie- 
genden Kategorien gegeniiberstehen. 



Den Berechnungen der Signierobjektivitat 
unter der Annahme geordneter Signie- 
rungskategorien liegt bereits eine be- 
stinmite Zuordnung von Zahlencodes zu 
den Antwortkategorien zugrunde. Dieser 
Auswertungsschritt der ‘Kodierung’ von 
Antwortkategorien wird im folgenden 
Kapitel ausfuhrlicher behandelt. 

2.5.2 Die Kodierung von Ant- 
wortkategorien 

Den Kategorien der Itemantworten, seien 
sie durch das Antwortformat vorgegeben 
oder seien sie das Resultat der Signierung 
freier Antworten, miissen Zahlen zugeord- 
net werden, urn sie weiter verarbeiten zu 
konnen. Dieser Vorgang wird als Kodie- 
rung bezeichnet und hat zum Ziel, die 
Antwortvariablen herzustellen (s.o.). Die 
Alien der Kodierung von Antwortkatego- 
rien lassen sich daher anhand der Alien 
der durch sie erzeugten Antwortvariablen 
unterscheiden. 

Die wichtigsten Unterscheidungsmerkma- 
le sind hierbei, ob die Antwortvariable 

- dichotom (zweigeteilt) oder polytom 
(mehrgeteilt) ist, und 

- ob sie ungeordnete oder geordnete 
Kategorien hat. 



Dichotome Antwortvariablen sind weitaus 
die haufigsten. Sie nehmen nur 2 Werte 
(Valenzen) an, namlich 0 und 1. Diese 
beiden Codes haben sich durchgesetzt, 
weil sie rechnerisch am leichtesten hand- 
habbar sind (anders als etwa die Codes 1 
und 2). 

Unterscheidet das Antwortformat (oder die 
Signierung) von vomherein nur 2 Katego- 
rien, z.B. richtig - falsch, ja - nein, stimme 
zu - stimme nicht zu etc., so stellt sich bei 
der Kodierung in eine dichotome Ant- 
wortvariable nur ein Problem, namlich das 
der Polling. Fiir die meisten Allen der 
Testauswertung, insbesondere fiir die 
Messung quantitativer Personenmerkmale, 
ist es namlich wichtig, daB die Antwort- 
variablen fiir alle Items gleichsinnig gepolt 
sind, d.h. der Code T immer auf densel- 
ben Pol des zu messenden Merkmals hin- 
weist (z.B. Extraversion). Das bedeutet, 
daB eine ja-Antwort durchaus nicht immer 
mit einer ‘ 1’ zu kodieren ist, namlich dann 
nicht, wenn sie auf den entgegengesetzten 
Pol der zu messenden Eigenschaft hin- 
weist (z.B. Introversion). 

Ob eine derartige Umpolung negativ for- 
mulierter Items bei der Kodierung erfol- 
gen sollte, hangt von dem anzuwendenden 
Testmodell ab. So sollten die Antworten 
bei einem quantitativen Testmodell mit 
nicht-monotonen Itemfunktionen (s. Kap. 
3. 1.1.3) nicht umgepolt werden, bei klas- 
sifizierenden Testmodellen dient eine Um- 
polung lediglich der Ubersichtlichkeit der 
Ergebnisse. 

Gibt es mehr als zwei Antwortkategorien, 
so kann eine Dichotomisierung, also eine 
Kodierung in eine dichotome Antwortva- 
riable sinnvoll sein, was aber stets mit 
einem Informationsverlust verbunden ist. 
Werden in einem Leistungstest etwa 5 
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Alternativen vorgegeben, so verzichtet 
man mit der Kodierung der richtigen Al- 
ternative mit ‘1’ und aller anderen mit ‘O' 
auf die Information, welcher Distraktor 
gewahlt wurde. Die Wahl eines schwieri- 
gen Distraktors ist zwar auch eine ‘falsche’ 
Itemantwort, sie weist aber daran f hin, dab 
sich die Person bei der Beantwortung 
‘etwas gedacht' und nicht nur geraten hat. 
Die Alternative zu einer Dichotomisiemng 
ware in diesem Fall die Kodierung mit 

0 = Wahl eines unplausiblen Distraktors 

1 = Wahl eines plausiblen Distraktors 

2 = Wahl der richtigen Alternative, 

also die Herstellung einer polytomen Ant- 
wortvariable. 

In Fragebogen mit geordneten Antwortka- 
tegorien, z.B. Ratingfoimaten, empfiehlt 
sich generell keine Dichotomisiemng. Fast 
alle in Kapitel 3 behandelten Testmodelle 
gibt es auch in einer Version fur poly tome 
Antwortvariablen mit geordneten Katego- 
rien. Solche Testmodelle fiir ordinale Da- 
ten bieten nicht nur genauere MeBwerte 
fiir die Personeneigenschaft, sondem auch 
bessere Moglichkeiten der Prufung, ob ein 
Testmodell auf die Daten paBt. 

Entscheidet man sich fiir die Dichotomi- 
sierung mchrcrer Antwortkategorien, stellt 
sich die Frage wie man dichotomisiert. 

Bei einem Leistungstest mit mehreren 
richtigen Antwortkategorien kann man 
unterschiedlich streng dichotomisieren, in- 
dem man entweder nur die Kombination 
der richtigen Alternativen mit ‘1’ kodiert 
oder auch Kombinationen, in denen die 
richtigen Alternativen und ein Distraktor 
enthalten sind. Hierzu kann es keine gene- 
rellen Empfehlungen geben, auBer der, 
daB es aus statistischen Griinden vorteil- 



haft ist, wenn beide Codes etwa gleich 
haufig auftreten. 

Bei Ratingformaten kann sich die Not- 
wendigkeit einer Zusammenlegung von 
Kategorien, und im Extremfall einer 
Dichotomisierung stellen, wenn einige 
Antwortkategorien zu selten gewahlt wur- 
den. Bei sehr vielen Testmodellen gibt es 
namlich Probleme mit der Parameterschat- 
zung, wenn einzelne Antwortkategorien 
bei einem Item gar nicht oder nur 2- oder 
3-mal auftreten. 

Bei polytomen Antwortvariablen sind 
diejenigen mit geordneten Kategorien 
weitaus haufiger als solche mit ungeordne- 
ten. Werden Ratingfoimate verwendet, so 
nimmt man im allgemeinen an, daB die 
Kategorien der Ratingskala geordnet sind. 
Hire Kodierung erfolgt mit aufsteigenden 
ganzzahligen Werten, wobei ebenfalls mit 
0 begonnen wird. Die Antwortvariablen 
X vi nehmen also Werte von 0 bis m an, 

x vi e{0,l,2,...,m} , 

wenn es m+1 Ratingkategorien gibt. 

Die Zuordnung aufeinanderfolgender 
ganzzahliger Werte zu den Stufen einer 
Ratingskala (sog. integer scoring) wird oft 
als willkurlich empfunden und es wird ar- 
gumentieit, man konnte den Stufen mit 
gleichem Recht auch die Werte 1, 3, 9, 10 
und 27 zuordnen. Mit dieser Kritik ist ge- 
meint, daB die Zuordnung gleichabstandi- 
ger (aquidistanter) Codes ein Skalenni- 
veau fiir die Itemantworten voraussetzt, 
(namlich des Niveau einer Intervallskala), 
das den Daten gar nicht zukommt. Wiirde 
diese Kritik zutreffen, so ware das tat- 
sachlich ein gravierender Nachteil polyto- 
mer Antwortvariablen, denn eine Aquidi- 
stanzannahme, die bereits in die Kodie- 





90 



2. Testkonstruktion 



rung der Itemantworten eingeht, kann 
nicht nachtraglich iiber die Gultigkeit 
eines Testmodells gepriift werden. Der 
Testauswertung wiirde in diesem Fall ein 
willkurliches Element anhaften, das ill re 
‘Wissenschaftlichkeit’ in Frage stellt. 

Diese Kritik trifft jedoch nur dann zu, 
wenn man die Antwortvariablen selbst zu 
MeBwerten erklart. Das ist etwa dann der 
Fall, wenn man die Summe der Itemant- 
worten (bzw. deren Codes) als MeBwert 
fur die Personeneigenschaft nimmt. Be- 
rechnet man jedoch die MeBwerte mit 
Hilfe eines Testmodells fur polytome 
Daten (s. Kap. 3.3), so stellen die Codes 
der Antwortkategorien keine Werte auf 
einer Intervallskala dar, sondern sie 
bezeichnen die Anzahl der Schwellen- 
Uberschreitungen, die einer Itemantwort 
zugmndeliegen. 

Damit ist gemeint, daB zwischen den Ka- 
tegorien einer (m+l)-stufigen Ratingskala 
genau m Ubergange, sog. Schwellen lie- 
gen. Ein Kreuz auf einer m-stufigen Ra- 
tingskala zu machen, setzt bei der befrag- 
ten Person rn-mal die Entscheidung vor- 
aus, eine Schwelle zu uberschreiten oder 
nicht. Ein Kreuz in Kategorie x gibt an, 
daB die Person x-mal eine Schwelle iiber- 
schritten hat. Der Code x ist also eine 
Haufigkeitsangabe und kein intervallska- 
lierter MeBwert. 

Diese Art der Kodiemng mit Werten von 0 
bis m setzt lediglich voraus, daB die Ant- 
wortkategorien tatsachlich geordnet sind, 
so daB die Uberschreitung einer hoheren 
Schwelle nur moglich ist, wenn alle nied- 
rigeren Schwellen uberschritten wurden. 
Andernfalls wiirde der Code x fur die 
(x+l)-te Stufe der Ratingskala nicht mehr 
die Anzahl der Schwellenuberschreitungen 
kennzeichnen. Ob diese Schwellen dann 



fur ein bestimmtes Item oder ein bestimm- 
tes Antwortformat aquidistant sind, ist 
eine ganz andere Frage, die mittels geeig- 
neter Testmodelle beantwortet werden 
kann (s. Kap. 3.3.2 und 3.3.4). 

Auch fur polytome Antwortvariablen mit 
geordneten Kategorien stellt sich die Frage 
einer gleichsinnigen Polling aller Items, 
die dasselbe Merkmal messen. Fur die 
wichtigsten Testmodelle ist eine solche 
gleichsinnige Polung Voraussetzung. Aus- 
nahmen bilden Testmodelle mit nicht-mo- 
notonen Itemfunktionen (s. Kap. 3.1. 1.3), 
die sich auch fur polytome Daten verall- 
gemeinem lassen und klassifizierende 
Testmodelle mit itemspezifischen Schwel- 
lendistanzen (s. Kap. 3.3.4). 

Das Problem bei einer Umpolung negativ 
formulierter Items mit geordneten Ant- 
wortkategorien besteht darin, daB mit der 
Umpolung auch die Reihenfolge der 
Schwellen umgekehrt wird. 



Beispiel 

Ein Angst-Fragebogen enthalt die beiden 
folgenden Items: 

Vor einer Priifung kann ich meistens 
nichts essen. 

Wenn ich zum Zahnarzt gehe, lese ich 
im Wartezimmer in alter Ruhe die 11- 
lustrierten. 

Das Antwortformat lautet: 

- trifft nicht zu 

- trifft selten zu 
■ trifft oftzu 

- trifft immer zu. 

Da die beiden Items offensichtlich in un- 
terschiedlicher Richtung fomiuliert sind 
erfordert eine gleichsinnige Polung der 
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Antwortvariablen die Kodierung von 0 bis 
3 beim ersten, und von 3 bis 0 beim 
zweiten Item. Ein Wert von x=l bedeutet 
daher beim ersten Item, daB die Schwelle 
von ‘trifft nicht zu’ nach ‘trifft selten zu’ 
uberschritten wurde. Beim zweiten Item 
bedeutet derselbe Wert, daB die Schwelle 
von ‘trifft inmier zu’ nach ‘trifft oft zu’ 
uberschritten wurde. 



Diese Umkehrung der Schwellenreihen- 
folge infolge der Umpolung negativ for- 
mulierter Items ist fur solche Testmodelle 
problematisch, bei denen die Schwellen- 
abstande als fUr alle Items konstant ange- 
nonmien werden (s. Kap. 3.3.4). Diese 
Modelle konnen in solchen Fallen nicht 
angewendet werden. 

Die Kodierung ungeordneter Kategorien 
in polytome Antwortvariablen wirft ganz 
andere Fragen auf. Soil auf die Daten ein 
klassifizierendes Testmodell angewendet 
werden, d.h. soil eine qualitative Perso- 
nenvariable erfaBt werden, so ist die Ko- 
dierung ungeordneter Kategorien vollig 
unproblematisch: den Kategorien jedes 
Items werden in beliebiger Reihenfolge 
die Werte 0 bis m zugeordnet, wobei es 
nicht nur egal ist, wie die Antwortkatego- 
rien von jedem Item definiert sind, son- 
dern sogar wieviele Antwortkategorien bei 
jedem Item unterschieden werden. 



Beispiel 

Mit einem Fragebogen sollen die lei- 
stungsbezogenen Kognitionen von Schii- 
lern erfaBt werden, wobei von einer Typo- 
logie von Schulern ausgegangen wird, die 
3 Muster von leistungsbezogenen Kogni- 
tionen unterscheidet. In dem Fragebogen 
kommen ganz unterschiedliche Items vor: 

Erstens, Items die die Attribution von 
Mifierfolg (schlechte Noten) erfassen 



sollen und vier Antwortkategorien un- 
terscheiden: intem-labile, intem-stabi- 
le, extern-labile und extem-stabile At- 
tribution. 

Zweitens, Items die die Leistungsmotiva- 
tion erfassen sollen und zwei Ant- 
wortkategorien unterscheiden: Hoff- 
nung auf Erfolg und Furcht vor 
MiBerfolg. 

Drittens, Items die die subjektiven Kon- 
trolliiberzeugungen der Schuler erfas- 
sen sollen und drei Antwortkategorien 
unterscheiden: Kontrolle liegt beim 
Schuler, Kontrolle liegt bei anderen 
Personen, Kontrolle liegt beim Zufall. 

Die drei erwarteten Typen von Schulem 
zeichnen sich durch folgende Antwortmu- 
ster aus: 

Typ 1: intern-labile Attribution von MiB- 
erfolg, Hoffnung auf Erfolg, Kon- 
trolle beim Schiiler 

Typ 2: extern-labile Attribution von MiB- 
erfolg, Furcht vor MiBerfolg, Kon- 
trolle beim Zufall 

Typ 3: extern-stabile Attribution von MiB- 
erfolg, Furcht vor MiBerfolg, Kon- 
trolle bei anderen Personen 

Die Items konnen mit den Werten 0-1 -2-3, 
0-1 und 0-1-2 kodiert werden und mit 
einem klassifizierenden Testmodell aus- 
gewertet werden, urn die Schulertypen zu 
erfassen. 



Ganz anders sind die Erfordemisse an die 
Kodierung, wenn mit ungeordneten Kate- 
gorien quantitative Personenmerkmale 
erfaBt werden sollen. Hierzu muB man 
sich zunachst klarmachen, daB man nicht 
mit mehreren ungeordneten Antwortkate- 
gorien nur eine quantitative Eigenschaft 
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erfassen kann. Hat ein Item die Kategorien 
A, B, C und D und soil mit alien 4 Kate- 
gorien nur die eine Eigenschaft X erfaBt 
werden, so geht das nur, wenn die Ant- 
wo rt wa h rse lie i n I i c h ke i te n der 4 Katego- 
rien auch tatsachlich von der Eigenschaft 
X abhangen. Das bedeutet, daB jede der 
Kategorien A, B, C und D einen Abschnitt 
auf der zu messenden Dimension haben 
muB, in dem diese Kategorie auch mit 
relativ holier Wahrsehcinliehkeit gewahlt 
wird 

b d c A 

1 1 1 > x 

In diesem Fall handelt es sich aber bereits 
um geordnete Kategorien und diese miis- 
sen gemaB ihrer Ordnung kodiert werden, 
d.h. B=0, D=l, C=2 und A=3. 

Ungeordnet sind Kategorien nur dann, 
wenn jede Kategorie eine andere Eigen- 
schaft anspricht, z.B. 

A — > die Tendenz intem-labil zu 
attribuieren 

B — > die Tendenz intern-stabil zu 
attribuieren 

C — > die Tendenz extern-labil zu 
attribuieren 

D — » die Tendenz extern-stabil zu 
attribuieren 

Aus diesem Sachverhalt leiten sich auch 
die Konsequenzen fur die Kodiemng un- 
geordneter Antwortkategorien ab: die Ka- 
tegorien werden wiederum mit den Werten 
von 0 bis m kodiert, jedoch muB jeder 
Code bei alien Items dieselbe Antwortka- 
tegorie bezeichnen, also z.B. die Codezahl 
‘2’ bezeichnet diejenige Antwort, die auf 
eine extern-labile Attribution hinweist. 

Zusammenfassend laBt sich sagen, daB die 
Kodierung bei der Messung qualitative! - 



Personeneigenschaften itemspezifisch er- 
folgen darf, wahrend sie bei der Messung 
quantitative! - Eigenschaften itemiibergrei- 
fend erfolgen muB. 

Eine letzte Anmerkung noch zur Kodie- 
rung fehlender Itemantworten’, also zu 
dem Fall, daB Personen einzelne Items 
ausgelassen oder iibersprungen haben. Es 
hat sich eingebiirgert, diese sog. missing 
data mit der Codezahl ‘9’ zu kodieren, 
bzw. mit ‘99’ wenn mein - als 9 Antwortal- 
ternativen zu kodieren sind. Man sollte 
eine solche getrennte Kodiemng fehlender 
Antworten in jedem Fall vomehmen, auch 
wenn es bei der Anwendung eines Test- 
modells oft erforderhch ist, diesen Wert zu 
recodieren, d.h. mit einer zulassigen Item- 
antwort zusammenzulegen (z.B. 9— >0). 
Nicht nur die verfiigbare Software 
unterscheidet sich hinsichtlich ihrer mis- 
sing-data Optionen, also dem Angebot mit 
fehlenden Werten umzugehen. Auch hangt 
es von den jeweiligen Testmodellen ab, 
wie sinnvoll iiberhaupt mit fehlenden 
Werten umgegangen werden kann. 

In den folgenden Kapiteln wird diese 
Problematik nicht weiter erortert. Es wird 
vielmehr davon ausgegangen, daB die An- 
zahl fehlender Werte ini allgemeinen so 
gering ist, daB eine Zusammenlegung mit 
einer zulassigen Kategorie (z.B. ‘0’ bei 
Leistungsitems oder einer mittleren Kate- 
gorie bei Ratingskalen) zu keiner gravie- 
renden Veranderung der Ergebnisse fiihrt. 



Literatur 

Das UbereinstimmungsmaB Kappa wurde 
von Cohen (1960) fiir Nominaldaten und 
Cohen (1968) fiir Ordinal- oder Intervall- 
daten (weighted Kappa) entwickelt. Fleiss 
(1971) und Light (1971) diskutieren die 
Verallgemeinerung dieses MaBes fiir mein - 
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als 2 Signierer und Fleiss et. al (1969) 
geben an, wie man den Standardfehler von 
Kappa berechnen kann. Neuere Methoden 
zur Berechnung von Signier- oder Rater- 
Ubereinstimmung bedienen sich der latent 
class Analyse (Dillon & Mulani 1984). 
Asendorpf & Wallbott (1979) sowie 
Zegers (1991) geben einen Uberblick iiber 
verschiedene Koeffizienten. Matschinger 
und Angemieyer (1992) diskutieren Effek- 
te der Itempolung auf das Antwortver- 
halten. 



3. In einem Leistungstest zum Physik- 
wissen ist als ein Item eine Batterie, 
zwei Lampchen und ein Ein-/Aus- 
Schalter abgebildet. Die Aufgabe be- 
steht darin, eine Kabelverbindung 
zwischen diesen 4 Teilen so einzu- 
zeichnen, dab bei einer Realisierung 
dieser Schaltung beide Lampchen 
moglichst hell leuchten. Schlagen Sie 
eine Signieranleitung und eine Kodie- 
rung vor, mit der eine polytome Ant- 
wortvariable entsteht. 



Ubungsaufgaben 

1. In einem Satzergangzungstest wurden 
zu dem Satzanfang : ‘Wenn rnich auf 
dem Gehweg jemand anrempelt und 
sich nicht mal entschuldigt, dann ...’ 
folgende Erganzungen produziert: 

... ist das unverschamt 
... rufe ich ihm/ ihr etwas hinterher 
gehe ich einfach weiter 
. . kann das mal passieren 
. . argere ich mich 
... sage ich ‘hoppla’ 

. . . bleibe ich stehen und wundere 
mich. 

Schlagen Sie mehrere Signierungs- 
aspekte vor und signieren Sie die 
Antworten danach. 

2. Zwei Signierer erhalten bei der Si- 
gnierung nach 4 Kategorien die fol- 
gende Ubereinstimmungsmatrix: 





A 


B 


C 


D 


A 


5 


1 


0 


1 


B 


2 


7 


1 


0 


C 


3 


0 


4 


0 


D 


0 


4 


1 


8 



Berechnen Sie den Ubereinstimmungko- 
effizienten k. 
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3. Testmodelle 

Dieses Kapitel gliedert sich in fiinf Unter- 
kapitel, von denen sich die ersten drei auf- 
grund des Skalenniveaus der Antwortva- 
riablen ergeben: dichotome (Kap. 3.1), 
nominale (Kap. 3.2) und ordinale (Kap. 
3.3) Itemantworten. Das vierte Unterkapi- 
tel (3.4) behandelt Testmodelle fur solche 
Tests, bei denen die Items eine systemati- 
sche Struktur haben, so dab sich z.B. 
ill re Schwierigkeit aus unterschiedlichen 
‘Komponenten’ zusammensetzt. Kapitel 
3.5 behandelt schlieBlich Modelle zur 
V eranderungsmessung . 

3.1 Modelle fur dichotome 
Itemantworten 

Dichotome Itemantworten (dichotom ist 
griechisch und heibt ‘zweigeteilt’) sind 
vermutlich der haufigste und zugleich 
einfachste Fall von Reaktionen auf Test- 
und Fragebogenitems. Es werden lediglich 
zwei Reaktionen unterschieden wie 

ja - nein, 
richtig - falsch, 

Zustimmung - Ablehnung, 
beantwortet - nicht beantwortet, 
Reaktion aufgetreten - Reaktion nicht auf- 
getreten usw.. 

Zugleich ist es der schwierigste, weil in- 
fo rmat ion scirmste Fall, da pro Person- 
Itemkontakt lediglich 1 bit Information 
erhoben wird. 



Was ist ein bit? 

Ein bit (Abk. fur ‘binary digit’) ist die 
Einheit, in der die Infomiationsmenge ge- 
messen wird, und zugleich die kleinste 
Menge an Information, die von einem 



Sender zu einem Empfanger transportiert 
werden kann: weniger als eine Wahl 
zwischen zwei Alternativen kann man 
nicht mitteilen (Jedes ‘Weniger’ ware ‘Gar 
nichts’). 



Leider ist gerade fur dichotome Itemant- 
worten die Testtheorie am weitesten ent- 
wickelt, was oft dazu frill rt, dab urspriing- 
lich mehrkategoriell vorliegende Itemant- 
worten nachtraghch ‘dichotomisiert’ wer- 
den. Die folgenden Kapitel 3.2 und 3.3 
iiber nominale und ordinale Itemantworten 
werden deutlich machen, dab dichotome 
Itemantworten ein eher uninteressanter 
Spezialfall von informationsreicheren, 
z.B. ordinalen Itemantworten darstellen. 

Trotzdem lassen sich die meisten testtheo- 
retischen Konzepte und vor allem die 
unterschiedlichen theoretischen Konzep- 
tionen iiber den Zusammenhang von be- 
obaclitbarem Verhalten und latenten Va- 
riablen bereits fur dichotome Daten dar- 
stellen und hier am leichtesten verstand- 
lich machen. 

Die Datenstruktur, auf die sich die Model- 
le dieses Kapitels beziehen, ist eine recht- 
eckige 0-1 Matrix, in der die Zeilen den 
Personen und die Spalten den Test- oder 
Fragebogenitems entsprechen. Die Werte 
in der Matrix werden mit x vi bezeichnet, 
wobei v der Zeilenindex ist (v wie ‘Ver- 
suchsperson’) und i der Spaltenindex. Die 
Werte x vi sind die Auspragungen der Ant- 
wortvariablen X vi . Die in der folgenden 
Abbildung dargestellten Daten fungieren 
gleichzeitig als ‘kleines’ Datenbeispiel zur 
Illustration einiger Testmodelle in den 
folgenden Unterkapiteln. 
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Datenstruktur 


Items i 
1 2 3 


4 


5 


r v = 




1 


0 


0 


0 


0 


0 


0 




2 


0 


0 


0 


0 


1 


I 




3 


0 


0 


0 


0 


0 


0 


Personen 


4 


0 


0 


0 


1 


0 


1 


v= 


5 


0 


0 


0 


1 


1 


2 




6 


0 


0 


1 


1 


1 


3 




7 


0 


1 


1 


0 


1 


3 




8 


0 


1 


0 


1 


1 


3 




9 


1 


1 


1 


1 


1 


5 




10 


1 


0 


1 


1 


0 


3 




11 


0 


0 


0 


1 


1 


2 




12 


0 


0 


1 


0 


1 


2 


n, = 




2 


3 


5 


7 


8 





A bbildung 15: Die Datenstruktur dichotomer 
Testdaten 

Anhand dieser Datenstruktur lassen sich 
einige Begriffe einfiihren, die im Rahmen 
von alien Testmodellen eine Rolle spielen. 

Die Spaltensuninien dieser Matrix 
N 

(1) X x vi = n i 

v=l 

werden als Itemscores bezeichnet und 
drucken die Leichtigkeit des Items aus. N 
ist die Anzahl getesteter Personen. Der 
Itemscore gibt die Anzahl der Personen 
an, die das Item ‘gelost’ haben, mit ‘ja’ ge- 
antwortet haben, eine positive Reaktion 
gezeigt haben usw. Es stellt eine Kon- 
vention dar, dab die Kodierung 1 immer 
fiir die richtige Losung bzw. eine zustim- 
mende oder positive Reaktion gewahlt 
wird, und die Kodiemng 0 fiir das Gegen- 
teil, d.h. falsche Antwort - Ablehnung - 
negative oder fehlende Reaktion (s. Kap. 
2.5). Die Schwierigkeit eines Items druckt 
sich demgegeniiber in der Anzahl der 
Nullen aus, also N - n,. 



’Item-Leichtigkeit’ 

Man spricht auch dann von der 'Leich- 
tigkeit’ oder ‘Schwierigkeit’ eines Items, 
wenn es sich nicht um Leistungstestitems 
handelt, es also nicht besonders ‘schwierig’ 
ist, eine mit 1 kodierte Antwort zu 
produzieren. Dieser Sprachgebrauch soil 
im folgenden beibehalten werden, ebenso, 
wie von einer ‘Itemlosung’ gesprochen 
werden soil, auch wenn es kein Problem 
zu losen gibt, sondern eine Frage mit ‘ja’ 
beantwortet wird oder ahnliches. 



Die entsprechende Zeilensumme der Da- 
tenmatrix 

k 

(2) X *vi = r v 

i=l 

wil'd als Personenscore oder Summenscore 
bezeichnet, wobei r Werte zwischen 0 und 
k annehmen kann und k die Anzahl der 
Items ist. In vielen quantitativen Test- 
modellen druckt der Summenscore die 
‘Personenfahigkeit’ aus. Fiir den Terminus 
‘Personenfahigkeit’ gilt jedoch Analoges 
wie fiir Ttemschwierigkeit’, d.h. er be- 
zeichnet generell die Tendenz der Person, 
eine 1-Antwort im Test zu geben. 

Die Haufigkeitsverteilung der Personen- 
scores ist die Scoreverteilung. Fiir das 
obige Datenbeispiel sieht die Scorevertei- 
lung wie folgt aus: 



Scoreverteilu 

r 


ig: 

0 12 3 4 5 


n r 


2 2 3 4 0 1 



A bbildung 16: Die Scoreverteilung fur die Daten 
aus Abbildung 15. Mit n r wird die Haufigkeit eines 
Scores bezeichnet 
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ErfaBt der Test eine quantitative Variable, 
kann man an der Scoreverteilung bereits 
selir viele Eigenschaften des Tests und der 
befragten Personenstichprobe ablesen, z.B. 
ob sich die Personenfahigkeiten gleichma- 
Big verteilen oder einer anderen Vertei- 
lungsfomi folgen. Weiterhin erkennt man, 
ob der Test ‘zu leicht’ oder ‘zu schwer’ war, 
d.h. ob er einen Decken- oder Bodenejfekt 
aufweist (Floor- oder Ceilingeffekt). 

Gleichverteilung^ 

n r 



r= 0 1 2 3 4 5 6 ... k 

Eingipflige (unimodale) Verteilung 

n r 






r= 0 1 2 3 4 5 6 ... k 

Deckeneffekt (Test ist zu leicht) 



n r 




r= 0 1 2 3 4 5 6 ... k 



Bodeneffekt (Test ist zu schwer) 




r= 0 1 2 3 4 5 6 ... k 

Abbildung 17: Verschiedene Formen von Score- 
Verteilungen 



Die Berechnung und Interpretation von 
Personenscores und sornit auch einer 
Scoreverteilung setzt jedoch voraus, daB 
es Sinn macht, die Itemantworten einer 
Person liber die Items aufzusummieren. 
Mit der Addition der Itemantworten und 
der Interpretation des Personenscores als 
MaB fur die Leistung der Person in diesern 
Test geht nattirlich die Information 
verloren, welche Items eine Person gelost 
hat und welche nicht. Die Addition ist 
eine kompensatorische Verkniipfung, d.h. 
die Nichtlosung eines Items kann durch 
die Losung eines anderen Items kompen- 
siert werden, so daB derselbe Personen- 
score und damit dasselbe Testergebnis 
herauskommt. 

Eine zentrale Frage psychologischer Test- 
theorie ist, wann der Personenscore ein 
adaquates Mafi fiir die Leistung der Per- 
son in einem Test darstellt. Anders aus- 
gedruckt besteht die Fragestellung darin, 
ob in der Gesamtheit der Itemantworten 
einer Person mehr Information iiber die zu 
testende Eigenschaft steckt, als durch den 
Personenscore erfaBt wird. 

Will man diese Frage beantworten, so 
muB man anstelle der Scorehaufigkeiten 
die Patternhdufigkeiten oder die Haufig- 
keiten der Antwortmuster anschauen bzw. 
zum Gegenstand einer statistischen Unter- 
suchung machen. Ein Antwortmuster oder 
Antwortpattern ist der Vektor aller Item- 
antworten einer Person. 

Vektoren werden mit unterstrichenen 
Kleinbuchstaben bezeichnet, d.h. x v 
der Antwortvektor der Person v und & ist 
ein beliebiger Antwortvektor. 
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Was ist ein Vektor? 

Eine Zeile oder eine Spalte aus der Daten- 
matrix bezeichnet man als Personenvektor 
(Zeile) oder Itemvektor (Spalte). Der Be- 
griff des ‘Vektor’ stammt aus der Algebra 
und bezeichnet eine lineare Anordnung 
von Zahlen, z.B. 

(3, 4, 2, 3.5, 600) oder 

Ein Vektor ist zu unterscheiden von einem 
Skalar, womit man eine einzelne Zahl 
bezeichnet, und einer Matrix, womit man 
eine rechteckige Anordnung von Zahlen 
bezeichnet. 



f 
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Ein Vektor kann auch geometrisch inter- 
pretiert werden, indem man die einzelnen 
Zahlen des Vektors als Koordinaten eines 
Punktes in einem k-dimensionalen Raum 
(k = Lange des Vektors) auffaBt. Die 
Strecke vom Koordinatenursprung bis zu 
diesem Punkt reprasentiert dann diesen 
Vektor. 

Die Haufigkeitsverteilung der Antwort- 
vektoren entsteht dadurch, daB man aus- 
zahlt, wieviele Personen ein bestimmtes 
Antwortpattern bei einem Test produziert 
haben. 

Die Haufigkeitsverteilung der Antwortpat- 
tern kann als eine aquivalente Representa- 
tion der urspriinglichen O-l-Datenmatrix 
gelten, da keine andere Ail der Datenag- 
gregation vorgenommen wurde als die 
Auszahlung, wieviel Personen exakt das- 
selbe Muster von Antworten in einem Test 
produziert haben. 

Fur obiges Datenbeispiel sehen die Pat- 
ternhaufigkeiten wie folgt aus: 



Patternhaufigkeiten 



X 


n(x) 


0 


0 


0 


0 


0 


2 


0 


0 


0 


0 


1 


1 


0 


0 


0 


1 


0 


1 


0 


0 


0 


1 


1 


2 


0 


0 


1 


0 


0 


0 


0 


0 


1 


0 


1 


1 


0 


0 


1 


1 


0 


0 


0 


0 


1 


1 


1 


1 


0 


1 


0 


0 


0 


0 


0 


1 


0 


1 


1 


1 


0 


1 


1 


0 


1 


1 


1 


0 


1 


1 


0 


1 


1 


1 


1 


1 


1 


1 



Von den 32 moglichen Antwortpattern 
wurden viele nicht beobachtet. Die ‘...’ 
deuten an, dal) hier Pattern mit Nullhiiu- 
figkeiten ausgelassen wurden. 



Demgegeniiber stellt die Scoreverteilung 
und der Vektor der Itemscores eine sehr 
starke Form der Datenaggregation dar, da 
hier alle Personen, die dieselbe Anzahl 
von Aufgaben gelost haben, als gleich- 
wertig behandelt werden. 



Datenaggregation 

Mit Datenaggregation (Aggregation = An- 
haufung) bezeichnet man die Zusammen- 
fassung von ‘Rohdaten’ zu einer kleineren 
Menge von Daten, die dann die Basis fur 
die Anwendung statistischer Modelle dar- 
stellt. Eine Datenaggregation ist in der 
Regel mit einem Informationsverlust ver- 
bunden, und es ist daher wichtig, Daten so 
zu aggregieren, daB moglichst wenig In- 
formation verloren geht, bzw. nur solche, 
die nicht von Interesse ist. 
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Tm Gegensatz zur Scoreverteilung wird die 
Verteilung der Patternhaufigkeiten jedoch 
sehr schnell zu uniibersichtlich, da es bei 
einem Test mit k dichotomen Items 2 k 
unterschiedliche Antwortmuster gibt. Das 
sind bei 10 Items 1024 und bei 20 Items 
schon iiber 1 Million unterschiedliche 
Antwortmuster. Dies ist der Grand dafiir, 
dab Testmodelle, die neben oder statt der 
Anzahl der gelosten Aufgaben das Muster 
der Itemantworten zur Grundlage der Er- 
fassung von Personeneigenschaften ma- 
chen, rechnerisch komplizierter zu hand- 
haben sind. 

Mit dieser simplen Unterscheidung zwi- 
schen Scoreverteilung als starker Form der 
Datenaggregation einerseits und Pattern- 
Verteilung als schwacher Form der Daten- 
aggregation andererseits korrespondiert 
bereits die grandlegende Unterscheidung, 
die das Gliederangsprinzip fur die folgen- 
den Abschnitte darste lit. Gemeint ist die 
Unterscheidung, ob der Test eine, quanti- 
tative oder eine kategoriale (qualitative) 
latente Personenvariable erfabt: Soli der 
Personenscore alles iiber die Testleistung 
einer Person aussagen, so legt man im- 
plizit die Annahme einer quantitativen 
Personenvariable zugrunde. 

Die Personen werden namlich bereits in 
diesem ersten Schritt der Datenaggregati- 
on auf die Ordinalskala der moglichen 
Scores abgebildet, d.h. Personen mit ei- 
nem hoheren Score haben auch eine bes- 
sere Testleistung in einem quantitativen 
Sinne. 

Werden Personen demgegeniiber lediglich 
danach unterschieden, welche unter- 
schiedlichen Antwortmuster sie produzie- 
ren, so zielt dies auf qualitative Personen- 
unterschiede ab. Ob eine Person andere 
Items (aber nicht unbedingt mehr oder 



weniger) als eine andere Person gelost hat, 
sagt zunachst nichts dariiber aus, ob sie 
‘besser oder schlechter' ist, sondern ledig- 
lich, dab sie ‘anders’ ist. 

Es labt sich an dieser Stelle auch schon 
erkennen, dab die Messung einer quanti- 
tativen Personeneigenschaft einen Spezial- 
fall der Messung von qualitativen Perso- 
nenunterschieden darstel It, namlich jener, 
bei dem Antwortmuster, die denselben 
Summenscore aufweisen, ‘in einen Topf 
geschmissen' werden. 

Die folgenden beiden Kapitel befassen 
sich zunachst mit Testmodellen mit quan- 
titativer lat enter Variable (3.1.1) und dann 
mit Modellen mit qualitativer latenter 
Variable (3.1.2). Kapitel 3.1.3 behandelt 
die Kombination von beidem, dab namlich 
eine quantitative latente Variable fur jede 
Valenz (Auspragung, Wert) einer katego- 
rialen latenten Variable angenommen 
wird. 

Modelle mit mehreren quantitativen laten- 
ten Variablen in dem Sinne, dab verschie- 
dene Items unterschiedliche Personenei- 
genschaften ansprechen, werden hier nicht 
behandelt. Das liegt damn, dab es bisher 
nur vereinzelte und noch nicht ausgereifte 
Ansatze fur solche Art von mehrdimensio- 
nalen Testmodellen gibt. Trotzdem werden 
in Kapitel 3 auch Modelle mit mehreren 
quantitativen Personenvariablen behan- 
delt, z.B. in Kapitel 3.2.2 iiber nominale 
Itemantworten. Dort geht es darum, dab 
die unterschiedlichen Antwortkategorien 
der Items verschiedene Personeneigen- 
schaften ansprechen. Ebenso in Kapitel 
3.4.2 iiber Itemkomponentenmodelle wo 
es unterschiedliche Personeneigenschaften 
fur die einzelnen Itemkomponenten geben 
kann. Es gibt also unterschiedliche Begrif- 
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fe von ‘Mehrdimensionalitat’ bei Test- 
modellen (s.a. Ka. 2.2.1). 

Die in diesem Kapitel behandelten Test- 
modelle sollen an einem gemeinsamen 
Datenbeispiel illustriert werden. Neben 
dem Mini-Datensatz aus Abbildung 15 
steht hierfiir das folgende Standardbei- 
spiel fiir dichotome Daten zu Verfiigung. 

Es handelt sich um 5 Items aus dem 
KFT (Kognitiver Fahigkeitstest, Heller, 
Gaedike & Weinlader, 1976), die zusam- 
men mit den iibrigen 20 Items der 
‘figuralen Analogieaufgaben’ des KFT im 
Rahmen einer Feldstudie von 5410 Schii- 
lern der 7. Klassenstufe aus mehreren 
Bundeslandern Deutschlands bearbeitet 
wurden (Baumert et al. 1992). Aus Griin- 
den der Ubersichtlichkeit werden in die- 
sem Kapitel lediglich die Daten von 
N=300 Schtilern verrechnet. Abbildung 18 
zeigt die ausgewahlten Items. 

Die Items des KFT sind nach ansteigender 
Schwierigkeit geordnet, so daB auch bei 
diesen 5 Items das erste das leichteste und 
das letzte das schwerste ist. Die Item- 
scores lauten: 



Item 


1 


2 


3 


4 


5 


n i 


195 


175 


143 


1 13 


94 



Die Scoreverteilung lautet: 



r 


0 


1 2 


3 


4 


5 


n r 


58 


48 46 


50 


60 


38 



Die Testinstruktion lautet: Von den fiinf 
Auswahlfiguren rechts soil diejenige 
her aus gef unden werden , die zu der dritten 



Figur ebenso pafit wie die zweite zur 
ersten. 
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Abbildung 18: Die 5 ausgewahlten Items des 
KFT: Form A, Itemnummer: 19, 23, 27, 31 und 35 

Der vollstandige Datensatz wird durch die 
folgende Tabelle der Patternhaufigkeiten 
reprasentiert: 



X 


n(x) 


0 


0 


0 


0 0 


58 


0 


0 


0 


0 


1 


4 


0 


0 


0 


1 


0 


2 


0 


0 


0 


1 


1 


1 


0 


0 


1 


0 


0 


11 


0 


0 


1 


0 


1 


2 


0 


0 


1 


1 


0 


1 


0 


0 


1 


1 


1 


1 


0 


1 


0 


0 


0 


8 


0 


1 


0 


0 


1 


1 


0 


1 


0 


1 


0 


2 


0 


1 


1 


0 


0 


3 


0 


1 


1 


0 


1 


1 


0 


1 


1 


1 


0 


2 


0 


1 


1 


1 


1 


8 


1 


0 


0 


0 


0 


23 
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0 
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2 


1 


0 


1 


1 


1 


3 


1 


1 


0 


0 


0 


21 


1 


1 


0 


0 


1 


10 


1 


1 


0 


1 


0 


8 


1 


1 


0 


1 


1 


10 


1 


1 


1 


0 


0 


24 


1 


1 


1 


0 


1 


6 


1 


1 


1 


1 


0 


3 3 


1 


1 


1 


1 


1 


38 



Ubungsaufgaben 

1. Welche Verteilungsform hat (in etwa) 
die Scoreverteilung des KFI-Datenbei- 
spiels? 

2. Welche beiden Pattern traten bei den 
300 Schulern im KFT-Beispiel nicht 
auf? 



3.1.1 Modelle mit quantitativer 
Personenvariable 

Sind die (manifesten) Itemantworten 
dichotom und ist die zu erfassende latente 
Variable quantitativ, so laBt sich der in 
einem Testmodell vemiutete Zusammen- 
hang zwischen Testverhalten und psychi- 
schem Merkmal in Form einer Funktion 
darstellcn, die man Itemcharakteristik oder 
Itemfunktion nennt. Die Itemcharakteristik 
(Abk: ICC wie Item Characteristic Curve) 
ist eine Funktion, die die Wahr- 
scheinlichkeit einer richtigen Itemantwort 
p(X vi = 1) in Abhangigkeit von der quan- 

titativen Personenvariable 8 beschreibt 



Die latente Personenvariable soli 8 (Theta) 
heiBen. Uber ihr Skalenniveau ist zunachst 
nichts weiter bekannt, als daB es minde- 
stens ordinal, also quantitativ ist. Gra- 
phisch laBt sich eine ICC oder Itemfunk- 
tion wie folgt darstellcn 



p(x=l) 




A bbi Idung 19: Del' Graph einer Itemfunktion 

Die Itemfunktion beschreibt also die Ab- 
hangigkeit der 1-Antwort auf ein Item von 
der quantitativen latenten Variable. Damit 
ist zugleich auch die Abhangigkeit einer 
O-Antwort von der latenten Variable defi- 
niert: da sich beide Wahrscheinlichkeiten 
zu 1 addieren miissen, ist der Verlauf der 
Funktion fur eine O-Antwort spiegelbild- 
lich bezuglich einer Waagerechten, die 
durch den Ordinatenwert 0.5 geht. 




A bbi Idung 20: Die Wahrscheinlichkeitsfunktionen 
beider Antwortkategorien 

In dieser Abbildung stellt die durchgezo- 
gene Kurve die Wahrscheinlichkeitsfunk- 
tion 

P(X vi = 1) = f(0 v ) 



(1) p(X vi = l) = f(6 v ). 
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dar und die gestrichelte Kurve die Funk- 
tion 

P (X vi = 0) = 1 - f(0 v ) . 

Alle Modelle mit einer quantitativen laten- 
ten Variable lassen sich mit Hilfe der 
Funktion, die sie fur die einzelnen Items 
annehmen, voneinander unterscheiden und 
mit Hilfe des Funktionsverlaufs auch 
graphisch gut reprasentieren. Wahrend auf 
den ersten Blick die Vielfalt von mogli- 
chen Funktionsverlaufen, unendlich groB 
zu sein scheint, reduziert sich diese Viel- 
falt bei naherer Betrachtung drastisch. 

Eine insbesondere fiir Leistungstests sehr 
naheliegende Annahme ist namlich, daB 
der Funktionsverlauf monoton steigend ist, 
d.h. mit zunehmender Eigenschaftsaus- 
pragung steigt die Wahrscheinlichkeit 
einer 1-Antwort. Tatsachlich nehmen die 
meisten Testmodelle eine solche Mono- 
tonie der Itemfunktion an. 

Unter den nicht-monotonen Funktionsver- 
laufen sind wiederum nur jene von Inter- 
esse, die eingipflig oder 'umgekehrt U- 
formig’ sind. Mit einer solchen Fomi wird 
angenommen, daB die Wahrseheinlichkeit 
einer 1-Antwort zunachst monoton an- 
steigt bis sie einen gewissen Punkt auf der 
X-Achse erreicht hat, um dann wiederum 
monoton abzunehmen. Solche Itemfunk- 
tionen werden postuliert, wenn die Zu- 
stimmung zu einem Item nur in einem 
bestimmten Spektrum der quantitativen 
Eigenschaft wahrscheinlich ist, z.B. wenn 
nach Prdferenzen gefragt wird. Test- 
modelle mit nicht-monotonen Itemfunk- 
tionen werden im dritten Unterkapitel die- 
ses Kapitels behandelt (Kap. 3.1. 1.3). 

Andersartige ICC’s als monotone und 
eingipflige werden in der Testtheorie so 



gut wie gar nicht behandelt. Innerhalb der 
Gruppe der monoton steigenden ICC’s 
lassen sich noch zwei Formen unterschei- 
den, namlich ‘stufenformige’, d.h. ICC’s 
mit einer Unstetigkeitsstelle (Sprung- 
stelle), und solche, die ohne Sprungstelle 
kontinuierlich ansteigen (s. Abb. 21). 
Stufenformige und kontinuierliche Item- 
funktionen werden getrennt in den beiden 
folgenden Unterkapiteln 3. 1.1.1 und 
3. 1.1.2 behandelt. 
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Abbildung 21: Zwei Arten von Itemfunktionen 

Zuvor sollen jedoch anhand des Konzeptes 
der Itemcharakteristik zwei zentrale Be- 
griffe der Testtheorie eingefiihrt werden, 
die im Rahmen aller Modelle mit einer 
quantitativen Personenvariable definiert 
werden konnen, die Itemschwierigkeit 
und die Trennscharfe von Items. 

Die Schwierigkeit bzw. Leichtigkeit von 
Items ist durch die Lage der ICC relativ 
zur X-Achse definiert. Somit ist das Item, 
dessen ICC am weitesten links liegt das 
leichteste, und das Item, das am weitesten 
rechts liegt, das schwierigste: man braucht 
fiir ein weiter rechts liegendes Item eine 
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groBere Fahigkeit, um dieselbe Losungs- 
wahrschcinlichkeit zu erreichen, wie fiir 
ein weiter links liegendes Item. 




A bbi I dung 22: Die Itemschwierigkeit als Lokation 
der Itemfunktion 

Als Konvention definiert der Abszissen- 
wert der 50% Wahrscheinlichkeit die Lage 
des Items und somit seine Schwierigkeit. 
Diese Abszissenwerte sind in Abbildung 
22 ebenfalls eingezeichnet. Die Lage einer 
Itemfunktion relativ zur latenten Dimen- 
sion, also zur X-Achse nennt man auch die 
‘Lokation eines Items’. 

Die Trennschdrfe ist eine zweite Eigen- 
schaft eines Testitems und soil aus- 
drucken, wie gut ein Item zwischen ver- 
schiedenen Eigenschaftsauspragungen der 
Personen 'trennt’. Hat ein Item eine ho he 
Trennscharfe, so lassen sich mit Hilfe 
dieses Items sehr gut Personen mit 
unterschiedlichen Eigenschaftsauspragun- 
gen voneinander unterscheiden. Geringe 
Trennscharfe meint dagegen, daB dies nur 
schwer mbglich ist. 

Bei monotonen Itemcharakteristiken 
druckt sich die Trennscharfe irn Anstieg 
der ICC aus, genauer gesagt, irn Anstieg 
der Kurve an ihrer steilsten Stelle. Ist die 
Kurve namlich sehr steil, so haben relativ 
dicht beieinander liegende Eigenschafts- 
auspragungen (Werte auf der X-Achse) 
sehr unterschiedliche Walirscheinlichkei- 



ten, das Item zu losen. Ist der Anstieg da- 
gegen gering, so haben wenig unterschied- 
liche Eigenschaftsauspragungen auch nur 
geringfiigig unterschiedliche Losungs- 
wahrscheinlichkeiten. 



P(x) 




p(x) 




Abbildung 23: Die Trennscharfe eines Items als 
Anstieg der Itemfunktion bei monotonen und 
nicht-monotonen Items (das gestrichelte Item ist 
jeweils trennscharfer) 

Bei nichtmonotonen ICC's ist dement- 
sprechend die ‘Steilheit’ des eingipfligen 
Funktionsverlaufs Ausdruck der Trenn- 
scharfe des Items. Ein flacher Verlauf der 
Funktion bedeutet wiederum, daB sich 
unterschiedliche Eigenschaftsauspragun- 
gen nur in geringfugigen Schwankungen 
der Antwortwahrscheinlichkeit nieder- 
schlagen. 

Stufenformige Itemfunktionen haben nach 
dieser Definition eine unendliche Trenn- 
scharfe, da die Steigung einer Kurve an 
einer Sprungstelle unendlich ist. Tatsach- 
lich laBt sich die Trennscharfe bei solchen 
Itemfunktionen noch anders definieren, 
worauf in dem Kapitel 3. 1.1. 1.2 eingegan- 
gen wird. 
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Als Giitekriterium eines Items betrachtet, 
z.B. fur Zwecke der Itemselektion, wird 
eine hohe Trennscharfe im allgemeinen als 
ein positives Merkmal des Items gewertet. 

Diese Sicht ist nicht unproblematisch, 
denn bei einem steilen Anstieg der ICC 
trennt das Item zwar gut zwischen Perso- 
nen deren Eigenschaftsauspragungen im 
Bereich des steilsten Anstiegs liegen 
(Person A und B in Abb. 24). Demgegen- 
iiber leistet das Item dann keinen Beitrag 
mehr zur Unterscheidung von Personen im 
Spektrum von niedrigen oder hohen 
Eigenschaftsauspragungen (Person C und 
D oder E und F in Abb. 24). 



p(x) 




A bbildung 24: Die Trennscharfe zweier Items in 
unterschiedlichen Fahigkeitsbereichen 



Somit ist die Trennscharfe eines Items als 
Gutemerkmal durchaus verteilungsabhan- 
gig: ein trennscharfes Item ist fur solche 
Stichproben von Personen gut, deren 
Eigenschaftsauspragungen in der Nahe des 
steilsten Anstiegs einer ICC liegen. 

Die Ermittlung der Trennscharfe eines 
Items aufgrund von Testdaten ist nur ein 
Teilaspekt der generellen Frage: 

Wie bestimmt man den Verlauf der 
Itemfunktionen eines Tests anhand der 
Testdaten? 

Werden sie in Form einer Annahme ein- 
fach vorausgesetzt oder lassen sie sich 
anhand der Testdaten berechnen? Beides 



ist teilweise richtig. Es wird bei der Ana- 
lyse von Testdaten eine bestimmte Form 
des Funktionsverlaufs vorausgesetzt und 
es werden dann die Parameter dieser 
Funktion fur jedes Item anhand der Daten 
geschdtzt. Da Modellparameter stets MaB- 
zahlen einer Population sind, konnen sie 
nie ‘berechnet’, sondern nur anhand von 
Stichprobendaten naherungsweise be- 
stimmt, also geschatzt werden. 



Beispiel: eine Gerade als Itemfunktion 

Wiirde man zum Beispiel eine Gerade als 
Funktionsverlauf voraussetzen, so muBten 
fur jedes Item anhand der Daten 2 Parame- 
ter geschatzt werden, namlich der Anstieg 
der Geraden, a, und der Abschnitt auf der 
Y-Achse, b, da die Geradengleichung 

(2 ) Y = aX + b 
oder als ICC geschrieben: 

(3) P (X vi = 1) = aj 0 V + bj 

zwei unbekannte Parameter hat. Diese 
beiden Parameterwerte werden fur jedes 
Item so geschatzt, daB die mit diesen Ge- 
raden vorhergesagten Antwortwahrschein- 
lichkeiten moglichst gut mit den beobach- 
teten Antworthaufigkeiten ubereinstim- 
men. Wie dies genau gemacht wird, ist in 
Kapitel 4 unter ‘Parameterschatzung' dar- 
gestellt, wird aber auch in den folgenden 
Unterkapiteln ansatzweise erlautert. 

Wie gut die Ubereinstimmung von vor- 
hergesagten Antwortwahrscheinlichkeiten 
und beobachteten Antworthaufigkeiten ist, 
muB mit Modeligeltungstests gepriift 
werden. Diese werden ebenfalls in einem 
gesonderten Kapitel behandelt (Kap. 5), 
aber bei einzelnen Testmodellen in den 
folgenden Kapiteln schon skizziert. 
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Dieses Vorgehen erscheint auf den ersten 
Blick sehr umstandlich, wiirde man sich 
doch wiinschen, die richtigen Funktions- 
verlaufe einfach anhand der Daten ermit- 
teln zu konnen. Eine solche Berechnung 
des Funktionsverlaufs ist jedoch unmog- 
lich, denn von den beiden an der Funktion 
beteiligten GroBen, der Antwortwahr- 
scheinlichkeit und der latent en Variable ist 
keine in den Daten vorhanden. Gegeben 
sind nur die dichotomen Itemantworten. 

Im iibrigen ist dieses ‘umstandliche’ Vor- 
gehen vollig identisch mit dem Vorgehen 
bei jeder Anwendung eines statistischen 
Modells: Stets werden Parameter unter der 
Annahme einer bestimmten Modellstruk- 
tur berechnet und, ob diese Annahmen 
empirisch zutreffen, muB anhand der er- 
mittelten Modellparameter gepriift wer- 
den. 

3.1.1. 1 Stufenformige Itemfunk- 
tionen 

3.1. 1.1.1 Die Guttman-Skala: der 
Sprung von Null auf Eins 

Die einfachste Annahme einer stufenfor- 
migen Itemcharakteristik besteht darin, 
daB die Losungswahrscheinlichkeit fur 
einen unteren Bereich der Eigenschafts- 
auspragung 0 ist und an einer bestimmten 
Stelle auf 1 springt. 

(X=l) 



I 1 0 

A bbildung 25: Die Itemfunktion einer Guttman- 
Skala 



Man konnte dies als eine Alles-oder- 
Nichts-Itemcharakteristik beschreiben, 
d.h. entweder man kann ein Item losen 
oder man kann es nicht. Bis zu einern 
gewissen Fahigkeitsgrad kann man es 
nicht losen, dariiber hinaus kann man es 
infolge einer entsprechenden Einsicht oder 
eines ‘Aha’-Erlebnisses losen. 

Haben alle Items diese Form einer Item- 
charakteristik und laBt sich die Stelle die- 
ser ‘plotzlichen’ Einsicht auf derselben 
latenten Dimension anordnen, so be- 
schreibt die in Abbildung 26 wiedergege- 
bene Schar von ICC’s die Items eines 
Tests. 

P(X=1) 



Abbildung 26: Die Itemfunktionen mehrerer Items 
einer Guttman-Skala 

Das Testmodell, das aus diesen beiden 
Annahmen resultiert, ist als Skalogramm- 
Analyse oder auch kurz Guttman-Skala 
bekannt. Es ist durch die beiden Annah- 
men festgelegt, daB alle ICC’s stufen- 
formig von einer O-Wahrscheinlichkeit zu 
einer 1-Wahrscheinlichkeit springen und 
daB die latente Dimension, auf der diese 
Sprungstellen angesiedelt sind (reprasen- 
tiert durch die X-Achse), fur alle Items 
dieselbe ist. 

Letztere Annahme wird als Annahme der 
Itemhomogenitat bezeichnet. Ttemhomo- 
genitat’ heiBt also, daB alle Items dieselbe 
latente Variable ansprechen. Ware dies 
nicht der Fall, so diirfte man nicht alle 
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ICC’s mit derselben X-Achse zeichnen. 1st 
dies jedoch der Fall, d.h. sind die Items 
homogen im Sinne der Guttman-Skala, so 
lassen sich weitere Folgerungen dieses 
Modells ableiten. 

Die wichtigste Eigenschaft ist die, dab 
sich sowohl Itemunterschiede als auch 
Personenunterschiede nur auf Ordinalska- 
lenniveau bestimmen lassen. Dies geht aus 
Abbildung 26 insofern hervor, als sich alle 
Personen, deren Fahigkeitsauspragungen 
zwischen den Sprungstellen zweier be- 
nachbarter Items liegen, in ihrem Test- 
verhalten nicht voneinander unterscheiden. 
Insofern kann auch nicht aus ihrem 
Testverhalten auf unterschiedliche Eigen- 
schaftsauspragungen geschlossen werden. 

Es konnen maximal so viele Eigenschafts- 
auspragungen von Personen unterschieden 
werden, wie es Items gibt, plus eins. Bei 6 
Items gibt es 7 Bereiche auf dem latenten 
Kontinuum, die sich aufgrund des Ant- 
wortverhaltens unterscheiden lassen. 

Diese 7 Personengruppen entsprechen 
genau den 7 moglichen Scoregruppen, die 
es bei 6 Items gibt. Die Gruppe, die am 
weitesten links liegt, hat kein Item gelost, 
die zweite Gruppe hat genau ein Item ge- 
lost usw.. Alle Personen, die in dieselbe 
Scoregruppe fallen, d.h. denselben Perso- 
nenscore aufweisen, haben auch genau 
dasselbe Antwortpattern produziert. Alle 
Personen mit Score 3 haben dieselben 3 
Items, namlich die 3 leichtesten gelost. 
Gilt fur einen Datensatz das Modell der 
Guttman-Skala, so gibt es in dieser Da- 
tenmatrix nur so viele unterschiedliche 
Antwortmuster wie es Personenscores 
gibt. Die Patternhaufigkeiten entsprechen 
den Scorehau figkeiten. 

Ordnet man den Personen ihren Personen- 
score als ‘Mefiwert’ zu, so ist dieser 



MeBwert lediglich ordinal skaliert. D.h. 
man kann fur eine Person, die 4 Items 
gelost hat, nur sagen, dafi sie ‘besser’ ist 
als eine Person, die 3 Items gelost hat, 
aber nicht um wieviel. 

Um das A u small dessen quantifizieren zu 
konnen, um wieviel diese Person besser 
ist, rniiBte man die Schwierigkeit des 
vierten, zusatzlich gelosten Items im Ver- 
gleich zum dritten Item kennen. Bezogen 
auf Abbildung 26, rniiBte man den Ab- 
stand der Sprungstellen des Items 3 und 
des Items 4 kennen. Die Schwierigkeit der 
Items ist im Modell der Guttman-Skala 
durch die Lage der Sprungstelle relativ zur 
X-Achse definiert. 

Das bedeutet, daB man die Schwierigkei- 
ten der Items kennen rniiBte, um die Fa- 
higkeiten der Personen auf einem hoheren 
Skalenniveau als dem der Ordinalskala be- 
rechnen zu konnen. Im Modell der Gutt- 
man-Skala ist die Schwierigkeit eines 
Items oder seine Lokation jedoch ebenfalls 
nur auf einer Ordinalskala bestimmbar. 
Die genaue Angabe des Abszissenwertes 
der Sprungstelle ist nicht moglich, da dies 
voraussetzen wiirde, daB man die Fahig- 
keit der Personen kennt, die dieses Item 
gelost haben. 

Fur das oben aufgefuhrte Beispiel konnten 
die 6 ICC’s also auch andere Abstande 
haben, z.B. aquidistant sein: 

P(X =1) 



Abbildung 27: Aquidistante Itemfunktionen 
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Daran wird deutlich, daB ein Testmodell 
stets eine zweifache Skalierungsaufgabe 
zu erfiillen hat, namlich die gleichzeitige 
Skalierung von Personen und Items. 

Wiirde man die MeBwerte der einen Sorte 
von Skalierungsobjekten kennen, so lie Ben 
sich die MeBwerte der anderen Sorte er- 
mitteln. In der Regel kennt man jedoch 
beides nicht, was die besondere Schwie- 
rigkeit von Testmodellen im Vergleich zu 
anderen MeBmodellen ausmacht. 

Eine Moglichkeit, dennoch zu MeBwerten 
zu gelangen, besteht darin, eine Vertei- 
lungsannahme beziiglich der MeBwerte 
aller getesteten Personen zu treffen. Da die 
Ermittlung von MeBwerten unter be- 
stinmiten Verteilungsannahmen eine wich- 
tige Rolle in der Testtheorie spielt, soil 
das Prinzip verteilungsabhangiger MeB- 
werte anhand der Guttman-Skala naher 
dargestcllt werden. 

Nimmt man z.B. an, daB sich die 
Fahigkeiten aller Personen in einem be- 
stimmten Intervall gleichverteilen, so 
lieBen sich die Abstande der Sprungstellen 
der ICC’s anhand der Scorehaufigkeiten 
ermitteln. Lautet etwa die Scoreverteilung 
fiir einen Test mit 6 Items in einer Stich- 
probe folgendeimaBen 
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so ftihrt die Gleichverteilungsannahme zu 
folgenden Abstanden der ICC’s und zu 
folgenden Itemschwierigkeiten. 

Den Items konnten die Werte 6, 9, 11, 15, 
16 und 19 als Schwierigkeitsparameter zu- 
geordnet werden, aber auch jede lineare 
Transformation dieser Werte, z.B. 0.0, 
0.3, 0.5, 0.9, 1.0 und 1.3. Die Idee dabei 



ist, daB der Abstand der Items, also die 
Differenz ihrer Schwierigkeiten stets pro- 
portional zur Anzahl der Personen in der 
dazwischen liegenden Scoregmpppe ist. 
Damit sind die Itemschwierigkeiten inter- 
vallskaliert. 

P(X=1) 



6 911 15 16 19 u 

Abbildung 28: Die Lokationen der Itemfunktionen 
aufgrund einer Verteilungsannahme 

Die Mefiwerte der Personen lassen sich in 
diesem Fall durch die Intervallmitte defi- 
nieren, also z.B. 7.5, 10, 13 usw.. Sie 
liegen ebenfalls auf einer Intervallskala, 
jedoch lassen sich fiir Personen, die kein 
Item oder alle Items gelost haben, auf 
diese Weise keine MeBwerte ermitteln. 
Die entsprechenden Intervalle reichen von 
minus unendlich bis 6, bzw. von 19 bis 
plus unendlich und haben keinen definier- 
ten Mittelpunkt. 

Unter einer Verteilungsannahme, 
z.B. der Annahme einer Gleichver- 
teilung, lassen sich die Itemschwie- 
rigkeiten und Personenfahigkeiten 
eines Guttman-skalierbaren Tests auf 
Intervallskalenniveau bestimmen. 

Dies demonstriert an einem einfachen 
Beispiel, wie man mit Hilfe von Vertei- 
lungsannahmen zu MeBwerten auf einem 
hoheren Skalenniveau gelangen kann (z.B. 
Intervall- statt Ordinalniveau). 

Durch die Einfiihrung der Gleichvertei- 
lungsannahme andert sich zwar das Ska- 
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lenniveau der Messung, die Mefigenauig- 
keit bleibt jedoch unverandert. Alle Per- 
sonen, deren Fahigkeitsauspragungen zwi- 
schen zwei benachbarten ICC’s liegen, 
erhalten denselben MeBwert, und es ist 
nicht bestimmbar, ob sie weiter links oder 
weiter rechts in diesem Intervall liegen. 



Die Priifung der Modellgeltung ist auch 
bei groBen Datensatzen problemlos durch- 
fiihrbar, da man lediglich die Items so um- 
sortieren muB, daB ihre Scores ansteigen. 
Fiir die derart umsortierte Datenmatrix 
muB dann gelten, daB keine 0 rechts von 
einer 1 steht. 



Die MeBgenauigkeit laBt sich bei der 
Guttman-Skala nur dadurch erhohen, daB 
weitere Items in den Test aufgenommen 
werden, deren ICC’s zwischen denen der 
bereits existierenden Items liegen. 

Probleme der Parameterschcitzung erge- 
ben sich bei diesem Modell nicht - sofem 
man keine Verteilungsannahme trifft. Als 
PersonenmeBwert kann einfach der 
Personenscore genommen werden, wobei 
dieser - wie erwahnt - Ordinalskalenquali- 
tat besitzt. 

Die Frage der Modellgeltung fiir einen 
bestimmten Datensatz laBt sich ebenso 
leicht beantworten. Gilt namlich das Mo- 
dell fiir eine gegebene Datenmatrix, so 
ergibt sich eine ‘Dreiecksmatrix’, wenn 
man alle Personen und alle Items in auf- 
steigender Reihenfolge ihrer Scores sor- 
tiert. 



Die Dreiecksmatrix der 
Guttman-Skala 
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Alle Antwortpattern, bei denen diese 
Bedingung erfiillt ist, heiBen Guttman- 
Pattern. Ein einziges Antwortmuster, das 
diese Bedingung nicht erfiillt, falsifiziert 
bereits das Modell der Guttman-Skala. Die 
Priifung der Modellgeltung bezieht sich 
also auf die Haufigkeiten der Antwortmu- 
ster, wobei die unter dem Modell erwarte- 
ten Haufigkeiten fiir alle ‘Guttman-Pat- 
tern’ beliebig sind, wahrend sie fiir alle 
anderen Pattern Null betragen miissen. 

DaB bereits eine Person das Modell der 
Guttman Skala fiir einen ganzen Test fal- 
sifizieren kann, liegt an dem deterministi- 
schen Charakter dieses Testmodells. Ein 
deterministisches Testmodell unterscheidet 
nur Antwortwahrschcinlichkeiten von 1 
und 0 und ist dementsprechend durch eine 
einzige unzulassige Itemantwort bereits 
falsifiziert. 



Um das Modell dennoch nicht gleich ver- 
werfen zu miissen, gibt es einen Index, der 
beschreiben soil ‘wie gut’ das Modell paBt. 
Dieses sogenannte Reproduzierbarkeits- 
mafi basiert auf der Anzahl unzulassiger 
Einsen und Nullen in der geordneten 
Datenmatrix und ist wie folgt definiert: 



( 1 ) 



Rep = 1 - 



ffehl ( x vi ) 

Fn 



wobei f feh j (x vi ) die Anzahl unzulassiger 
Itemantworten bezeichnet, k die Anzahl 
der Items und N die Anzahl der Personen. 
Dieses MaB beschreibt den relativen 
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Anted model Ikon Former Itemantworten in 
der Datenmatrix. Ein Antwortpattern kann 
dabei durchaus mehr als eine unzulassige 
Itemantwort enthalten, z.B. das Patten 5 = 
(011001). Im Zweifelsfalle zahlt jedoch 
die kleinste Anzahl von Itemantworten mit 
deren Andemng sich ein Guttman-Pattem 
ergibt. So weist das Pattern x = (010011) 
nur eine unzulassige Antwort auf, namlich 
die ‘1’ an zweiter Stelle, und nicht zwei 
(die beiden Nullen hinter der ‘1’). 



Datenbeispiel 

Das kleine Datenbeispiel aus Abbildung 
15 enthalt 5 unzulassige Antwortmuster, 
in denen insgesamt 6 unzulassige Itemant- 
worten enthalten sind: das Pattern der 10- 
ten Person ist nur durch zwei Korrekturen 
in ein Guttman-Pattem zu verwandeln. 

Das ReproduzierbarkeitsmaB betragt dem- 
nach 

Ren = 1— (6/(5- 12)) = 0.9. 



Das ReproduzierbarkeitsmaB gibt also das 
AusmaB an Abweichungen vom determi- 
nistischen Modell der Guttman-Skala an. 
Eine Priifung, ob diese Abweichung ‘sta- 
tistisch’ signifikant ist, ist nicht moglich, 
da unter der Annahme der Modellgeltung 
keine einzige Modellabweichung zulassig 
ist. 



Was ist eine statistisch signifikante 
Modellabweichung? 

Die Abweichung einer Datenmatrix von 
dem, was unter der Annahme eines 
bestimmten Testmodells zulassig ist, kann 
mehr oder weniger groB sein. Um ein 
Entscheidungskriterium zu haben, wann 
die Abweichung so groB ist, daB man die 
Annahme der Modellgeltung besser fallen 
lassen sollte, berechnet man fiir den 



Datensatz eine PrufgroBe (sog. Priifsta- 
tistik). Im Fall der Guttman-Skala konnte 
z.B. das ReproduzierbarkeitsmaB eine sol- 
che PrufgroBe darstellen. 

Um zu beurteilen, ob der Wert der Pruf- 
groBe noch im Bereich des ‘vertretbaren’ 
liegt, benotigt man eine Angabe, mit 
welcher Wahrscheinlichkeit welche Werte 
der PrufgroBe auftreten, sofem das Modell 
gilt. Tritt der berechnete Wert mit einer 
Wahrscheinlichkeit von unter 5% auf, so 
ist die Modellabweichung statistisch signi- 
fikant (= bedeutsam). 



Ein anderer Weg, mit dem Problem des 
Determinismus umzugehen, besteht darin, 
die GroBe der Teilstichprobe (von Perso- 
nen) zu bestimmen, fiir die das Modell der 
Guttman-Skala gilt. Diese Teilstichprobe 
bezeichnet man als die Klasse der ‘Ska- 
lierbaren wahrend der Rest der Stich- 
probe als Klasse der ‘Unskalierbaren’ be- 
zeichnet wild. Die relative GroBe der 
Klasse der Skalierbaren ist auch ein 
Indikator dafiir, wie gut das Modell der 
Guttman-Skala auf einen Test paBt. 

In dem kleinen Datenbeispiel umfaBt die 
Klasse der Skalierbaren 7 von 12 Perso- 
nen, also 58%. 

Eine solche Erweiterung des Modells der 
Guttman-Skala um eine Klasse von Un- 
skalierbaren sprengt den Rahmen von Mo- 
dellen mit quantitativer Personenvariable, 
da neben der quantitativen Variable, die 
nur in einer Teilstichprobe gemessen wer- 
den kann, noch die qualitative Personen- 
variable ‘skalierbar versus nicht-skalierbaf 
gemessen wird. Diese Erweiterung der 
Guttman-Skala stellt bereits ein klassifi- 
zierendes Testmodell dar (S.U. Kap. 3.1.2 
und Kap. 3.1.3). 
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Literatur 

Das Modell der Guttman-Skala wurde 
erstmals von Guttman (1950) beschrieben. 
Es wird in den meisten Leln'biichem zur 
Skalierung behandelt (z.B. Borg & Stau- 
fenbiel 1989, Coombs et al. 1975 und 
Orth 1983) da es ein gutes Beispiel zur 
Konstruktion einer Ordinalskala darstellt. 

Viele Statistik-Programme, z.B. SPSS, 
bieten die Moglichkeit, die fur eine An- 
wendung der Guttman-Skala notwendigen 
Berechnungen durchzufiihren. 

Die Erweiterung der Guttman-Skala um 
eine Klasse von Unskalierbai'en geht auf 
Goodman (1975) zuriick. Zysno (1993) 
behandelt die Erweiterung der Guttman- 
Skala fur polytome Daten. 

Ubungsaufgaben 

1. Wieviele ‘unerlaubte’ Pattern gibt es in 
dem KFI-Datenbeispiel? 

2. Wieviel Prozent der Stichprobe 
(N=300) umfaBt die Klasse der ‘Unska- 
lierbaren’ ? 

3. Wie hoch ist das Reproduzierbarkeits- 
maB fiir diesen Datensatz? 

3.1.1. 1.2 Antwortfehlermodelle: Irr- 
tum und Raten 

Eine sehr viel elegantere Moglichkeit, die 
Guttman-Skala auf realistische Datensatze 
anwendbar zu machen, besteht darin, die 
stufenformigen ICC’s probabilistisch wer- 
den zu lassen. Die Annahme, daB die 
Losungswahrscheinlichkeiten nur die Wer- 
te 0 und 1 annehmen konnen, ist insofem 
sehr extrem, als die Moglichkeit ausge- 
schlossen wird, die richtige Itemantwort 



zu erraten oder ein Item irrtumlich nicht 
zu losen. 

Definiert man als Ratewahrscheinlichkeit 
eine gleichbleibende Wahrscheinlichkeit 
das Item zu losen, auch wenn man sich 
‘links’ von der Sprungstelle der ICC be- 
findet und als Irrtumswahrscheinlichkeit 
die Wahrscheinlichkeit, das Item nicht zu 
losen, auch wenn man sich ‘rechts’ von der 
Sprungstelle befindet, so ergeben sich 
Itemfunktionen der folgenden Form 




A bbi Idung 29: Eine Itemfunktion mit einer Rate- 
und Irrtumswahrscheinlichkeit von jeweils 20%. 



Modelle, die einen solchen Verlauf der 
ICC annehmen, heiBen response error 
Modelle, da sie aus der Guttman-Skala 
durch Einfiihrung von Antwortfehlern, 
also Raten und Irrtum hervorgehen. 
Lazarsfeld und Henry (1968) bezeichnen 
diese Modelle auch als latent distance 
Modelle. Der Name spielt auf die Distanz 
zwischen den Sprungstellen der Itemfunk- 
tionen an. 

Response error Modelle konnen unter- 
schiedlich restriktiv, d.h. einschrankend 
sein, je nachdem welche Annahmen man 
beziiglich der Konstanz von Trrtums- und 
Ratewahrscheinlichkeit iiber die Items 
eines Test trifft. 

Im restriktivsten Fall nimmt man an, 
daB Rate- und Irrtumswahrscheinlichkeit 
gleich hoch sind und zudem fiir alle Items 
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konstant. Damit enthalt das Modell nur 
einen zusatzlichen Parameter, namlich 
eben jenen unbekannten Wert der Rate- 
und hrtumswahrscheinlichkeit bei alien 
Items. 

P(X=1) 



i 0 

Abbildung 30: Die Itemfunktionen des restrik- 
tivsten response error Modells 

Das am wenigsten restriktive Modell laBt 
fur jedes Item andere Ratewahrscheinlich- 
keiten und davon unterschiedliche Irrtums- 
wahrsehcinliehkeiten zu. Die Itemcharak- 
teristiken sehen dann wie folgt aus: 

P(X=1) 



i 0 

Abbildung 31: Drei Itemfunktionen mit unter- 
schiedlichen Rate- und Irrtumswahrscheinlich- 
keiten 

Die Eigenschaften dieser Modelle sind 
teilweise dieselben wie die der Guttman- 
Skala: Es konnen nur soviele MeBwerte 
fur die Personen unterschieden werden wie 
es Items gibt (plus eins). Personen, die 
zwischen den Sprungstellen zweier be- 
naehbarter Items liegen, konnen nicht hin- 
sichtlich ihrcr Eigenschaftsauspragung un- 
terschieden werden. Die PersonenmeB- 
werte liegen also ebenfalls auf einer 
Ordinalskala. 



Wie bei der Guttman-Skala werden ledig- 
lich Klassen von Personen unterschieden, 
namlich jene Klassen, deren Fahigkeits- 
auspragungen genau zwischen zwei be- 
nachbarten Sprungstellen liegen. 

Als Itemtrennschdrfe laBt sich bei diesen 
Modellen die Differenz zwischen Rate- 
wahrscheinlichkeit und Losungswahr- 
scheinlichkeit eines Items definieren, also 
die ‘Hohe' der Sprungstelle. Im Vergleich 
zu Guttman-Items haben die Items von 
response error Modellen eine geringere 
Trennscharfe: Je holier Rate- und Irrtums- 
wahrscheinlichkeit sind, desto schlechter 
diskriminiert ein Item zwischen verschie- 
denen Auspragungsgraden der latenten 
Variable. 

Die Items sind durch 3 Parameter ge- 
kennzeichnet: 

1. Durch ihre Itemschwierigkeit oder Lo- 
kation, Oj (Sigma), die wiederum nur 
auf Ordinalskalenniveau bestimmbar 
ist. Das bedeutet, es ist lediglich die 
Reihenfolge der Itemschwierigkeiten 
zu ermitteln. 

2. Die Ratewahrscheinlichkeit eines 
Items, Yj (gamma), die einen Walir- 
scheinlichkeitsparameter (im Interval I 
von 0 bis 1) darstellt, aber moglichst 
gering sein sollte (in jedem Fall unter 
0.5). 

3. Die Irrtumswahrscheinlichkeit, pj 
(beta), die ebenfalls moglichst gering 
sein sollte. Eins minus Irrtumswahr- 
scheinlichkeit ergibt die Losungswahr- 
scheinlichkeit des Items fiir alle Per- 
sonen, die rechts von der Sprungstelle 
liegen. 

Die Modellgleichung des allgemeinen 
Antwortfehlermodells laBt sich dann in 
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Form von zwei bedingten Antwortwahr- 
scheinlichkeiten schrcibcn: 

p(x vi =l| 0 v <a i ) = y i 
(D , N 

p(x vi = i|e v > cj ) = i - Pi , 

wobei 0<Yj<0.5 und 0 < pj <0.5. Die 
Fahigkeitsparameter 0 V sind ebenso wie 
die Itemschwierigkeiten Gj nur ordinal- 
skaliert. 

Das Modell der Guttman-Skala ergibt sich 
durch die Restriktion: y, = (1, = 0 fur alle 
Items i. Das bereits erwahnte restriktivste 
Antwortfehlermodell ergibt sich durch die 
Restriktion: y ; = (3; = y, wobei y die fur 
alle Items konstante Rate- und Irrtums- 
Wahrscheinlichkeit bezeichnet. 

Diese Modelle werden in der Praxis der 
Testentwicklung und Anwendung sehr 
selten angewendet. Die einfachste Mog- 
lichkeit der Parameterschatzung und Mo- 
dellgeltungskontrolle besteht darin, re- 
sponse error Modelle als restringierte 
latent class Modelle zu formulieren. Diese 
Moglichkeit wird in Kapitel 3. 1.2.3 dar- 
gestellt. 

Zur Illustration sei jedoch hier schon das 
Ergebnis einer Beispielrechnung mit den 
KFT-Daten wiedergegeben. 



Zwischen den Sprungstellen liegen fol- 
gende Prozentanteile der Personenstich- 
probe (N=300). 





vor 1 


1-2 


2-3 


3-4 4-5 hinter 5 


% 


28 


13 


11 


9 15 24 



Daraus geht hervor, daB die Sprung- 
stellen der Items 3 und 4 relativ dicht zu- 
sammenliegen, wenn man annimmt, daB 
sich die Personenfahigkeiten gleichma- 
Big liber das Fahigkeitsspektrum vertei- 
len. 



Literatur 

Einen Uberblick liber Antwortfehlermo- 
delle und ill re Systematik geben Clogg 
and Sawyer (1981), Formann (1984), 
Langeheine (1988) und Rost (1988a). 
Formann (1994) geht auf Probleme der 
Idcntifizierbarkeit von Antwortfehlermo- 
dellen ein. 



Ubungsaufgaben 

1. Zeichnen Sie die Itemfunktionen der 5 
KFT-Items. 

2. Welches Item ist unter Annahme des 
Antwortfehleimodells das trennscharf- 
ste. welche das trennschwachste? 



Datenbeispiel 

Flir die 5 Items des KFT-Datensatzes 
ergeben sich die folgenden Rate- und 
Irrtumswahrscheinlichkeiten: 



Item 


l 


2 


3 


4 


5 


Yi 


0.03 


0.08 


0.17 


0.05 


0.15 




0.12 


0.06 


0.19 


0.10 


0.18 
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3. 1.1.2 Kontinuierlich ansteigen- 
de Itemfunktionen 

Der sprunghafte Anstieg der Losungs- 
wahrschcinlichkeit an einer bestimniten 
Stelle des latenten Kontinuums stellt fiir 
viele Anwendungen von Tests und Frage- 
bogen eine zu strenge Annahme dar. 
Warani sollten auf einem latenten Konti- 
nuum einige Stellen derart ausgezeichnet 
sein, dab gerade dort ein ‘qualitativer’ 
Spmng im Antwortverhalten stattfindet? 
Daher nehmen die meisten Testmodelle 
an, dab sich die Lbsungswahrscheinlich- 
keit nur langsam und kontinuierlich in 
Abhangigkeit von der latenten Variable 
andert. 

Die Anzahl moglicher Funktionsverlaufe 
ist naturlich unendlich grob, und es stellt 
sich die Frage, wie man zu einer Auswahl 
von Funktionstypen kommt, bei denen es 
sich lohnt, sie unter testtheoretischen Ge- 
sichtspunkten zu betrachten. Kriterien fiir 
die Auswahl von Funktionsarten fiir die 
Itemfunktionen konnen sein: 

- Einfachheit im Sinne des Einfachheits- 
kriteriums, das an jede Art von 
Theorienbildung zu stellen ist, 

- vorteilhafte statistische Eigenschaften, 
die etwa die Schatzung der Parameter 
dieser Funktion betreffen, 

- psychologische Plausibilitat fiir eine 
Vielzahl von psychologischen Tests 
und Fragebogen, damit nicht fiir jeden 
Test ein neues Testmodell entwickelt 
werden mub. 

Geht man vom ersten Kiiterium, dem der 
Einfachheit aus, so ist sicherlich die li- 
neare Beziehung zwischen Antwortwahr- 
scheinlichkeit und latenter Variable dieje- 



nige Funktion, die diesem Kiiterium am 
ehesten entspricht. 

Eine lineare Beziehung anzunehmen, wirft 
jedoch das Problem auf, dab der Werte- 
bereich der latenten Variable beschrankt 
werden mub, weil die Antwortwahrschein- 
lichkeiten nur Werte zwischen 0 und 1 
annehmen konnen: man kann keine lineare 
Beziehung zwischen einer beschrankten 
und einer unbeschrankten Variable defi- 
nieren. 



P(X=l) 




Abbildung 32: Eine Gerade als Itemfunktion 



Das Testmodell, das auf der Annahme 
einer Geraden als Itemfunktion basiert, 
wird im ersten Unterkapitel (3. 1.1. 2.1) 
behandelt. Dieses Modell erweist sich als 
sehr restriktiv, da es konstante Schwie- 
rigkeiten fiir alle Items voraussetzt. 

Im zweiten Unterkapitel (3.1. 1.2.2) wird 
ein anderer Weg beschritten, die Annahme 
einer Geraden als Itemfunktion aufrecht- 
zuerhalten: die A nt wort wall rschc inliclikei- 
ten werden zunachst in Werte transfor- 
miert, die nicht mein - auf das O-l-Intervall 
beschrankt sind, sondern zwischen 
(minus unendlich) und +°° (plus unend- 
lich) liegen. Fiir diese so transformierten 
Wahrscheinlichkeiten wird dann eine 
lineare Abhangigkeit von der latenten 
Variable postuliert. Das daraus resul- 
tierende Modell erfiillt die o.g. Kriterien 
einer hohen psychologischen Plausibilitat 
des Funktionsverlaufs und vorteilhafter 
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statistischer Eigenschaften sowie - auch 
wenn es zunachst kompliziert aussehen 
mag - das Kriterium der Einfachheit. Es 
wird nach Georg Rasch als das Rasch- 
Modell bezeichnet. 

Das dritte und vierte Unterkapitel be- 
handeln Verallgemeinemngen dieses Mo- 
dells, und zwar einmal durch Einflihrung 
weiterer Parameter der Itemfunktion (Kap. 
3.1. 1.2.3), und einmal durch Verzicht auf 
jegliche Parametrisierung des Funktions- 
verlaufs (Kap. 3.1. 1.2.4). 

3,1. 1.2.1 Das Binomialmodell: Eine 
Gerade als Itemfunktion 

Den prominentesten Versuch, ein Test- 
modell mit Geraden als Itemfunktionen zu 
konstruieren, stellt die sog. klassische 
Testtheorie dar. Dieses Modell ergibt sich, 
wenn man die Grundgleichung und die 
Annahmen der MeBfehlertheorie (vgl. 
Kap. 2.1.2) 

(1) x v = t v + e v 

auf die einzelnen Itemantworten als Mefi- 
werte anwendet, d.h. von der Gleichung 

(2) x v i - t v i + e vj 

ausgeht, wobei x v ie{0,l} (lies: x v j ist 

ein Element aus der Menge der beiden 
Zahlen 0 und 1). 

Gleichung (2) laBt sich folgendermaBen in 
eine Itemfunktion umwandeln: Nach den 
Axiomen der MeBfehlertheorie (s. Kap. 
2.1.2) hat die Fehlervariable den Erwar- 
tungswert 0 und ist mit der Variable der 
wall re n Werte unkorreliert, so daB der Er- 
wartungswert der Antwortvariablc gleich 
dem wahren Wert ist, 

(3) Erw(X vi ) = t vi . 



Der Erwartungswert einer O-I-Variable 
entspricht der Wahrscheinlichkeit der Va- 
lenz ‘1’, da laut Definition des Erwartungs- 
wertes (s. Kap. 2.1.2) gilt: 

(4) Erw(x vi ) = 0- p(x vi = o) + I p(x vi = l). 

= P (x vi = i). 

Somit kann man Gleichung (3) auch 
folgendermaBen schreiben: 

(5) P^vi = l) = t v j - 

Wendet man die MeBfehlertheorie auf 
Itemantworten an, so ist eine Zusatz- 
annahme erforderlich, die sich darauf 
bezieht, wie die itemspezifischen wahren 
Werte zusammenhangen. Es konnen drei 
unterschiedliche Annahmen getroffen wer- 
den: 

Die erste Annahme besagt, daB die Items 
dieselbe latente Variable erfassen, sich 
aber in ihrer Schwierigkeit unterscheiden. 
Der walire Wert der Person v bei Item i 
setzt sich nach dieser Annahme aus ihrer 
Eigenschaftsauspragung 0 V und der Item- 
Schwierigkeit ctj zusammen: 

(6) t vi = e v -Oj. 

Das resultierende Testmodell 

(7) p(x vi =l) = 0 v -ai 

ist das sog. Modell essentiell tau-dqui- 
valenter Messungen und hat als Item- 
funktionen Geraden, die denselben An- 
stieg haben, also parallele Geraden. 

Die zweite Annahme besagt, daB die Items 
dieselbe latente Variable erfassen, sich 
aber hinsichtlich Schwierigkeit und Trenn- 
schdrfe unterscheiden. Da Trennscharfe 
als Anstieg der Itemfunktion definiert ist 
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(s.o.), gibt es einen zweiten Itemparameter 
(3j und die entsprechende Itemfunktion 
lautet 

(8) p(^vi ~ 0 — Pi ®v — • 

Dieses Modell ist das Modell kongene- 
rischer Messungen und hat als Item- 
funktion Geraden unterschiedlichen An- 
stiegs. 

Beide Zusatzannahmen sind im Fall von 
dichotomen Itemantworten hochst proble- 
matisch. Nimmt man namlich Geraden als 
Itemfunktionen an, so stellt sich das Pro- 
blem, welchen Wertebereich die latente 
Variable 0 hat. 

Haben die Items unterschiedliche Loka- 
tionen, also Schwierigkeiten, wie im 
Modell essentiell tau-aquivalenter Mes- 
sungen (7), so ist stets fur einige Items die 
Losungswahrscheinlichkeit in bestimmten 
Wertebereichen der latenten Variable nicht 
definiert (z.B. fiir Person v und w in Abb. 
33). 



P(X=1) 




Schwierigkeiten 

Eine Begrenzung des Wertebereichs auf 
ein ‘mittleres’ Intervall (s. Abb. 34), lost 
dieses Problem nicht, sondem schafft so- 
gar ein neues Problem, da die Losungs- 
wahrscheinlichkeiten von leichten Items 
nicht mehr unter einen bestimmten Wert 
absinken, die von schweren Items nicht 



mehr einen bestimmten Wert uberschrei- 
ten konnen. 




Abbildung 34: Geraden als Itemfunktionen mit 
begrenztem Wertebereich der latenten Variable 

Ein 'Ausweg' konnte darin bestehen zwei 
‘Knicke’ in der ICC vorsehen, um 
auBerhalb des Definitionsbereiches der 
Geraden die 0- bzw. 1 -Wahrscheinlichkei- 
ten als Werte der Itemfunktionen fest- 
zulegen. 



P(X=1) 




funktionen 

Dies kann aber nicht die Idee einer 
einfachen Funktion sein: warum sollte es 
gerade an bestimmten Stellen des Konti- 
nuums solche Knicke geben? Sie waren 
psychologisch nicht interpretierbar. 
Daraus folgt: 

Das Konzept Jinearer Itemfunktionen 
ist mit der Annahme unterschiedli- 
cher Itemschwierigkeiten nicht ver- 
einbar. 

Auch die Annahme unterschiedlicher 
Itemtrennschdrfen, d.h. unterschiedlicher 
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Steigungen der Geraden flihrt zu densel- 
ben Problemen, dab namlich fur bestimm- 
te Bereiche der latenten Variable die 
Losungswahrscheinlichkeiten nicht defi- 
niert sind oder die Losungswahrschein- 
lichkeiten bestimmte Werte nicht iiber- 
bzw. untersclirciten konnen. 



p(X=i) 




Abbildung 36: Items mit unterschiedlichen Trenn- 
scharfen 

Es labt sich also allein mit graphischen 
Argu men ten ersehen, dab ein Testmodell 
mit linearen Itemfunktionen Items mit 
gleicher Schwierigkeit und gleicher Trenn- 
scharfe voraussetzt. 

Die einzig sinnvolle Annahme, die man 
treffen kann, wenn man die Mebfeh- 
lertheorie auf dichotome Itemantworten 
anwenden will, ist daher die Annahme 

tau-aquivalenter Messungen 

(9) t vi = e v , 

die zu der einfachen Modellgleichung 

go) p(x vi = i) = e v 

fiihrt. Dieses Modell hat eine Gerade als 
Itemfunktion, und zwar dieselbe Gerade 
fiir alle Items (s. Abb. 37). 

Es setzt voraus, dab alle Items gleich 
schwierig und gleich trennscharf sind. Ob- 
wohl dieses Modell im Rahmen der klas- 
sischen Testtheorie behandelt wird, stellt 
es nicht das Modell dar, das typischer- 
weise mit dem Begriff ‘klassische Test- 



theorie’ assoziiert wird. In der gangigen 
Praxis der Testanalyse nach der klas- 
sischen Testtheorie werden vielmehr 
Schwierigkeits- und Trennscharfe-Indices 
fiir die Items berechnet, und es wird damit 
das Modell kongenerischer Messungen (8) 
zugrundegelegt. 



P(X=I) 




aquivalenter Messungen bzw. des Binomial- 
modells 

Weitaus bekannter ist Modell (10) unter 
dem Namen Binomialmodell. Warum das 
Modell so heibt, ergibt sich aus der fol- 
genden Darstellung. 

Da das Modell konstante Itemschwierig- 
keiten und konstante Itemtrennscharfen fiir 
alle Items voraussetzt, gibt es auch keinen 
Itemparameter in diesem Testmodell zu 
schatzen. Die Lbsungswahrscheinlichkei- 
ten einer Person v sind fiir alle Items 
konstant: 

p(x vi = l)= p(x v j = l) fiir alle Items i und j . 

Wie schon die Gleichung (10) ausdriickt, 
entspricht der Personenparameter eben 
dieser Losu n gs wall rsehc i n I i ch ke i t : 

e v = p(x vi =i) . 

Nimmt man an, dab die Items unabhiingig 
voneinander bearbeitet werden, d.h. trifft 
man die Annahme der stochastischen 
Unabhdngigkeit (vgl. Kap. 2.3.3), 
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(11) p(x vi undx vj ) = p(x vi )-p(x v j), 

so kann der Test auch als eine Anein- 
anderreihung von k binaren Zufallsexpe- 
rimenten mit gleichen Ausgangswahr- 
scheinlichkeiten p(x vi ) an fgefaBt werden. 



Was ist ein binares Zufallsexperiment? 

Wirft man eine Miinze, so stellt dies ein 
binares (= zweiwertiges) Zufallsexperi- 
ment dar, da es nur die beiden Ausgange 
‘Kopf oder ‘Zahl’ gibt. In diesem Beispiel 
sind die beiden Ausgange gleichwahr- 
scheinlich, was aber nicht notwendiger- 
weise so sein muB. Kodiert man die bei- 
den Ausgange mit ‘0’ und T, so ist ein 
binares Zufallsexperiment durch die bei- 
den Wahrscheinlichkeiten p(0) und p( 1) 
charakterisiert, die sich zu 1 erganzen 
miissen: p(0) + p(l) = 1. 



Aus der Statistik ist bekannt, daB bei 
solchen Experimenten die relative Anzahl 
von ‘1-Ausgangen’, also Itemlosungen 
einen Schdtzwert fur die Wahrschein- 
lichkeit darstellt, in jedem einzelnen Expe- 
riment den Ausgang 1 zu erhalten. Das 
heiBt, daB die Anzahl der von einer Person 
gelosten Aufgaben, dividiert durch die 
Aufgabenanzahl, direkt eine Schatzung 
des Fahigkeitsparameters der Person 
darstellt: 

(12) 9v=y mit r v = X x vi- 

i=l 

Schatzwerte fur einen Parameter werden 
mit einem A gekennzeichnet (sprich z.B. 
0: ‘Theta Dach’). 

Weiterhin ist aus der Statistik bekannt, 
daB die Wahrscheinlichkeit, in einer sol- 
chen Serie von k binaren Zufallsexperi- 
menten genau r 1-Ausgange (also Itemlo- 



sungen) zu erhalten, durch die Binomial- 
Verteilung definiert ist. 



Die Binomialverteilung 

Die Wahrscheinlichkeit, daB eine Person 
mit dem Parameter 0 V die ersten r von k 
Items lost, betragt 

(13) p(x vi = l,...,X vr = l,X vr+l = 0,...,X vk = o) 
= 9v ■(l-6v) k “ r . 

Diese Wahrscheinlichkeit ist fur alle Ant- 
wortmuster mit r Einsen identisch. Um die 
Wahrscheinlichkeit zu berechnen, irgend- 
ein Antwortmuster mit Score r zu erhalten, 
muB die rechte Seite von Gleichung (13) 
noch mit der Anzahl moglicher Antwort- 
muster mit Score r multipliziert werden. 
Diese Anzahl gibt der Binomialkoeffizient 

(k) (sprich 'k iiber r', vgl. Kap. 2. 3. 1.2) 

an: 

m Jk) k • (k - 1) (k -2)-...(k - r + 1) 

U j \r)~ 1 ■ 2 ■ 3 • 4.... r 



Es ergibt sich daraus die folgende 
Wahrscheinlichkeit des Scores r fur 
Person v: 



;i5) P 



Vi=l 





Die Gleichung definiert die Wahrschein- 
lichkeitsverteilung der Scores einer Per- 
son. Dieser Typ von Verteilung wil'd als 
Binomialverteilung bezeichnet. 



Mit Gleichung (15) lassen sich bei 
gegebener Itemanzahl k und Personen- 
fahigkeit 8 die Wahrscheinlichkeiten fiir 
alle moglichen Testresultate r berechnen. 
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Beispiel 

Betragt z.B. die Losungswahrscheinlich- 
keit einer Person 40% oder 0 = 0.4, so 
ergibt sich bei k = 5 Items die folgende 
Wahrscheinlichkeit, einen Score von 
r = 2 zu erhalten: 

P (r = 2) = (|) • 0.4 2 ■ 0.6 3 

= ^.0.16-0.216 = 0.3456 

Die Verteilung aller mbglicher Testscores 
sieht wie folgt aus: 

Testscore r: 



0 


12 3 4 


5 


.0771 


.2592 .3456 .2304 .0768 


.0102 



Wahrscheinlichkeit p(r) 



Weil die Binomialverteilung in diesem 
Testmodell fur jede Person die Wahr- 
scheinlichkeiten der mbglichen Testresul- 
tate beschreibt, heiBt dieses Testmodell 
auch Binomialmodell. 

Als ModeUgleichung bezeichnet man die 
Funktion, die die A n t wo rtwahrscheinlich- 
keit einer Person auf ein Item in Abhan- 
gigkeit von den Modellparametern spezi- 
fiziert. Sie besteht aus den beiden einzel- 
nen Antwortwalirscheinliclikeiten 

p(x vi = i) = e v 

und 

p(x vi = o) = i-e v , 

die folgendermaBen zu einer Gleichung 
zusammengefaBt werden konnen: 

(16) p(x vi ) = e^ v ' • (1 — 0 V )' x ” • 



Die Exponenten x vi und l-x vi konnen nur 
die beiden Werte 0 und 1 annehmen. Hire 
Funktion besteht darin zu steuem, welcher 
der beiden Faktoren jeweils bestehen 
bleibt und welcher ‘verschwindet’, denn: 
6°= 1 und0' = 0. 

Wahrend als ‘ModeUgleichung’ die Wahr- 
scheinlichkeitsfunktion einer einzelnen 
Itemantwort bezeichnet wird, versteht man 
unter der ‘Likelihoodfunktion’ die Wahr- 
scheinlichkeitsfunktion der gesamten Da- 
tenmatrix: 

L = p(x). 

Passend zur Kennzeichnung von Vektoren 
durch einfach unterstrichene Buchstaben 
werden Matrizen durch doppelt unter- 
strichene Buchstaben gekennzeichnet. 



L ikelihood 

likelihood’ ist im Englischen neben ‘prob- 
ability’ ein zweiter Begriff fur ‘Wahr- 
scheinlichkeit’. Er meint starker die ‘ver- 
mutete’ oder ‘erwartete’ Wahrscheinlichkeit 
eines Ereignisses und lieBe sich - etwas 
antiquiert - mit ‘Mutmafilichkeit’ uber- 
setzen. 

Definition: Die Likelihoodfunktion be- 
schreibt die Wahrscheinlichkeit der Daten 
in Abhdngigkeit von den Modellparame- 
tern unter der Annahme, dafi das Modell 
gilt. 

Die Likelihoodfunktion kann man sowohl 
fur die Parameterschatzung gut gebrau- 
chen (die besten Parameterschatzungen 
sind dort, wo die Likelihoodfunktion ihr 
Maximum hat, vgl. Kap. 4) als auch fur 
die Priifung der Modellgeltung (je holier 
der Wert der Likelihoodfunktion, desto 
besser paBt das Modell auf die Daten, vgl 
Kap. 5). 
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Man erhalt die Likelihoodfunktion, indem 
man die Wahrscheinlichkeiten der einzel- 
nen Itemantworten iiber alle Zeilen (Per- 
sonen) und Spalten (Items) aufmultipli- 
ziert. 



(17) 



L =nn p( x vi) 

v=l i=l 



Das Produktzeichen J"j 

So wie das Summenzeiehcn Z eine ver- 
kiirzte Sehrcibweise einer Addition vieler 
Summanden erlaubt, 

k 

xi + x 2 + x 3 +... + x k = £ X| , 
i=l 

ermoglicht das Produktzeichen ]~[ 
(groBes griechisches Pi) eine verkiirzte 
Schreibweise der Multiplikation vieler 
Faktoren: 

k 

x r x 2 x 3 -... x k =n Xj. 

i=l 

Der Buschstabe i fungiert hier als Lauf- 
index, der die Zahlen von 1 bis k durch- 
lauft (sprich: ‘Produkt’ von i gleich 1 bis k 



Da die Multiplikation von Wahrschein- 
lichkeiten nur fur unabhdngige Ereignisse 
die Wahrscheinlichkeit ill res gemeinsamen 
Eintretens definiert, setzt Gleichung (17) 
neben der stochastischen Unabhangigkeit 
der Antworten innerhalb einer Person 
(Multiplikation iiber die Items, vgl. Kap. 
2.3.3) auch die Unabhangigkeit der Test- 
bearbeitung zwischen den Personen voraus 
(Multiplikation iiber die Zeilen). 



Anmerkung 

Wiirde man die Annahme der sto- 
chastischen Unabhangigkeit nicht treffen, 
miiBte man weitere Parameter spezifizie- 
ren, mit Hilfe derer man aus den 
Einzelwahrsehcinliehkeiten auf die Wahr- 
scheinlichkeit kombinierter Ereignisse 
sehlicBcn kann, also auf die Wahrschein- 
lichkeit eines ganzen Antwortvektors. Da 
dies relativ kompliziert ist, gibt es bislang 
nur sehr wenige Ansatze fiir Testmodelle 
ohne die Annahme stochastisch unab- 
hangiger Itemantworten (vgl. z.B. Kap. 
3. 5. 3. 3). 



Die Likelihoodfunktion fiir das Binomial- 
modell lautet nach Einsetzen von (16) in 
(17): 

(is) L=n n e; v '(i-0v) 1_Xvi . 

V=] i=l 

Das innere Produkt kann verkiirzt werden 
zu: 

L = ne^d-e v ) k - r u 

V=1 

da jeder Pcrsonenparameter 0 V genau so 
oft aufmultipliziert wird, wie die Person v 
Items gelost hat (r v -mal). 

Von den urspriinglichen Testdaten braucht 
man fiir die Likelihoodfunktion lediglich 
die Zeilenrandsummcn der Datenmatrix, 
also die Testscores r v . Die Wahrschein- 
lichkeit der Daten hangt also nicht davon 
ab, welche Items eine Person gelost hat, 
sondem nur wieviele. 

Das wesentliche Resultat dieser Betrach- 
tungen der Likelihoodfunktion besteht 
darin, daB man fiir die Schiitzung der 
Modellparameter des Binomialmodells le- 
diglich die Testscores r v der Personen 
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benotigt. Da diese ‘Summenstatistik’ (r v ist 
ja die Summe aller 1-Antworten von 
Person v) eine ‘erschopfende’ Auskunft 
iiber die getestete Person gibt (sofem das 
Modell gilt), nennt man die r v auch die 
erschopfenden Statistiken fur die 
Personenparameter, oder die suffizienten 
Statistiken (sufficient statistics). 



Erschopfende Statistiken 

Der Begriff der erschopfenden Statistiken 
ist ein wichtiger Begriff, wenn es um die 
Schatzung der Modellparameter geht (vgl. 
Kap. 4), da Parameter mit erschopfenden 
Statistiken unproblematisch zu schatzen 
sind. Der Begriff ist aber auch fur das 
Verstandnis eines Testmodells wichtig, 
denn die erschopfenden Statistiken geben 
an, welche Infoimation aus den Testdaten 
‘herangezogen’ wird. Es ist die Art von 
Datenaggregation (s.o.), die bei Geltung 
des betreffenden Testmodells legitim ist, 
d.h. nicht mit einem Verlust diagnosti- 
scher Information verbunden ist. 



Wahrend die Schatzung der Modellpara- 
meter bei diesem Modell relativ simpel ist 
(es wird die relative Losungshaufigkeit 
einer Person als ihr MeBwert berechnet), 
so sind die Annahmen dieses linearen 
Modells, namlich konstante Itemschwie- 
rigkeiten und Itemtrennscharfen, doch sehr 
streng und unrealistisch. 

Die Parameterwerte fiir die Personen 
liegen auf einer Absolutskala, da es Wahr- 
scheinlichkeitsparameter sind. Als ‘abso- 
lut-skaliert’ bezeichnet man MeBwerte, fiir 
die keinerlei Transformation zulassig ist. 
es handelt sich um das hochste Skalen- 
niveau. Das hohe Skalenniveau der MeB- 
werte im Biomialmodell ist quasi der Ge- 
genwert fiir die strengen Annahmen, die 
das Modell voraussetzt. 



Die Annahme konstanter Itemschwierig- 
keiten impliziert in diesem Modell, da6 
die Losungshaufigkeiten der Items also die 
Itemscores bis auf Zufallsschwankungen 
gleich grofi sind. Die Streuung der Item- 
scores gibt einen ersten Hinweis, ob das 
Binomialmodell auf einen Datensatz paBt. 

Zusammenfassung 

Aus der Annahme linearer ICC’s und der 
Annahme stochastisch unabhangiger Item- 
antworten folgt das Binomialmodell, in 
dem die relative Anzahl geldster Items 
einen Schatzer fiir die P ersonenfdhigkeit 
darstellt. Es miissen konstante Schwie- 
rigkeiten und Trennschdrfen jur alle Items 
vorausgesetzt werden. 



Literatur 

Die verschiedenen Testmodelle der klas- 
sischen Testtheorie werden von Lord & 
Novick (1968), Steyer (1989) und Steyer 
& Eid (1993) dargestellt. Das Binomial- 
modell behandelt Klauer (1987) 
ausfiihrlich. V. d. Linden (1979) geht auf 
die Frage unterschiedlicher Itemschwierig- 
keiten im Binomialmodell ein. 



Ubungsaufgaben 

1. Wie lauten die Personenparameter des 
Binomialmodells fiir die KFT-Daten? 

2. Wie groB ist im KFT-Beispiel die 
Wahrscheinlichkeit, daB eine Person 
mit der Fahigkeit 0 = 0.6 von diesen 5 
Items a.) genau 2 lost, b.) genau 4 lost? 

3. Berechnen Sie den Wert der Likeli- 
hoodfunktion unter dem Binomialmo- 
dell fiir die folgende Datenmatrix: 

001 
101 
1 10 
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3.1. 1.2.2 Das Rasch-Modell: paralle- 
le Itemfunktionen 

Wenn die Annahme einer linearen Bezie- 
hung zwischen Ldsungswalirsehcinliehkeit 
und latenter Variable zu der restriktiven 
Folgemng konstanter Itemschwierigkeiten 
fiihrt, so liegt dies daran, dab die Lincari- 
tat zwischen einer auf das O-l-Intervall 
beschrdnkten Variable und einer potentiell 
unbeschrdnkten Variable angenommen 
wird. 

Eine Moglichkeit, dieses Problem zu um- 
gehen, besteht darin, Finearitat zwischen 
Losungswahrscheinlichkeit und latenter 
Variable nur im Mittelbereich anzuneh- 
men und die Itemfunktion im oberen 
Bereich asymptotisch dem Grenzwert 1 
und im unteren Bereich dem Grenzwert 0 
anzunahern. Die ICC’s haben dann in etwa 
folgenden Verlauf: 




A bbildung 38: Eine Itemfunktion, die nur im Mit- 
telbereich linear ist 



Es stellt sich die Frage, welcher mathema- 
tische Funktionstyp genau diese Form der 
ICC besehrcibt. Man konnte hierzu ver- 
schiedene Funktionstypen ‘ausprobieren’ 
und jeweils untersuchen, welche mathe- 
matischen Eigenschaften das daraus re- 
sultierende Modell aufweist. Vielleicht 
konnten fur einzelne Funktionstypen auch 
sinnvolle psychologische Annahmen for- 
muliert werden, aus denen genau dieser 
Funktionstyp ableitbar ist. Auf diesem 
Wege gelangt man z.B. zu der sog. 
kumulativen Normalverteilung als einer 
geeigneten Itemfunktion. 

Der Kurvenverlauf dieser Funktion ist in 
Abbildung 39 mit einer durchgezogenen 
Finie dargestellt. 




Abbildung 39: Die Kurvenverlaufe der logisti- 
schen Funktion (gestrichelte Linie; Modellglei- 
chung siehe weiter unten) und der kumulativen 
Normalverteilung mit den Parameterwerten (jj=0 
und Oj-1.6 (durchgezogene Linie) 



Ein solcher ogivenformiger Kurvenverlauf 
ist psychologisch plausibel, denn er be- 
schreibt die Annahme, dab die Fosungs- 
walirsehcinliehkeit im Mittelbereich am 
starksten mit zunehmender Fahigkeit 
steigt (den steilsten Anstieg hat). Ist ein 
Item dagegen zu leicht oder zu schwer, so 
verandert eine Fahigkeitszunahme nur 
geringfugig die Ldsungswahrsehcinlieh- 
keit. 



Die Modellgleichung der kumulativen 
Noimalverteilung als Testmodell lautet 






exp 



(e-hi )' 
2 0 ? 



, 2 ) 



d0. 



Dieses Testmodell hat pro Item 2 Para- 
meter, namlich p ; und o r p ; ist der Mit- 
telwert der Normalverteilung (s.a. Kap. 
1.2.2), die hier integriert wird, und somit 
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der Abszissenwert des Wendepunktes der 
Integralfunktion. Da der Wendepunkt zu- 
gleich die 50%-Losu ngswahrscheinlich- 
keit definiert, stellt p ; den Schwierig- 
keitsparameter des Items dar (s.o.). 

parametrisiert die Standardabweichung 
der Normalverteilung und reprasentiert 
somit nicht nur die Breite der Glocken- 
kurve, sondern auch den Anstieg ill res 
Integrals. 0j kann daher als Trennscharfe- 
parameter des Items interpretiert werden: 
je kleiner die Streuung a, desto groBer die 
Trennscharfe. 




Abbildung 40: Zwei Normal-Ogiven ungleichen 
Anstiegs: Pj = 0, 0j = 1, B 2 = = 2 

Die direkte Interpretierbarkeit der Modell- 
parameter als Schwierigkeit und Trenn- 
scharfe ist ein erstes starkes Argument fiir 
die Wahl dieses Funktionstyps. Hinzu 
kommen pragmatische Argumente, wie 
die Vertrautheit mit diesem Funktionstyp 
in vielen Bereichen der Statistik. 

Das starkste Argument ist jedoch, daB 
dieser Funktionstyp an friihere Tradi- 
tional der Skalierung ankniipft, so z.B. an 
die Skalierungstechniken von Thurstone. 
Thurstone hat bei vielen Skalierungsme- 
thoden angenommen, daB der Urteilsfehler 
bei der Einschatzung eines Stimulus nor- 
malverteilt ist. LaBt man in einem Expe- 
riment zur Beurteilung eines Stimulus nur 
zwei Reaktionen zu, namlich ‘groBer 
gleich' oder ‘kleiner als’ (ein konstanter 



Vergleichsstimulus), so ist die Wahr- 
scheinlichkeit fiir ein groBer-gleich-Urteil 
durch die Normal-Ogive (Modellgleichung 
1) beschreibbar. 

Nachteile dieses Funktionstyps sind, daB 
er unvorteilhafte statistische Eigenschaften 
aufweist (es gibt keine einfachen suffizien- 
ten Statistiken, S.O.) und daB er nur unter 
bestimmten Annahmen iiber den Antwort- 
prozeB (wie sie z.B. Thurstone getroffen 
hat) aus einfachen Axiomen ableitbar ist. 

Man kann jedoch auf eine ganz andere 
Weise zu einer Itemfunktion gelangen, 
welche sich kaum von der Kurve der 
kumulativen Noimalverteilung unterschei- 
det (s. die gestrichelte Linie in Abbildung 
39). Dieser Weg besteht darin, die Ant- 
wort wall rse hcinlichkeiten zunachst so zu 
transformieren, daB die Werte nicht mehr 
auf das O-l-Intervall beschrankt sind, und 
fiir die so transformierten Wahrschein- 
lichkeiten eine einfache lineare Funktion 
anzunehmen. 

Diese Transformation erfolgt in zwei 
Schritten. 

Zunachst wird die Walirschcinlielikeit, um 
die es geht, das ist in diesem Fall also die 
Lbsungswahrscheinlichkeit p ( X v j = 1 ) , 

durch ill re Gege n wall rselic i n I ie li keit divi- 
diert, was man als Odds-ratio oder auch 
Wett quotient en bezeichnet 

p(x vi = i) 

Wettquotient: —7 r . 

p(x vi =o) 

Dieser Bruch liegt zwischen 0 und +°° 
(das Zeichen 00 steht fiir ‘unendlich’) und 
druckt wie ein Wettquotient die Chance 
aus, daB die Person gegen das Item 
‘gewinnt’, d.h. es lost. 
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Der Wettquotient 

Wenn man sagt, daB die Wetten ‘1 zu T 
stehen oder ‘5 zu 2’, so meint man damit 
einen Bruch, also einen Quotienten, der 
das Verhaltnis der Wahrsehcinliehkeiten 
zweier einander ausschlieBender Ereig- 
nisse beschreibt, z.B. Pferd A gewinnt 
versus es gewinnt nicht, oder Gegner A 
versus Gegner B gewinnt den Boxkampf. 
Daher werden Wettquotienten auch mit 
dem Doppelpunkt als Divisionszeichen 
geschrieben, also 1:7 oder 5:2, was sich 
auch in einem Wert ausdrucken licBe, 
namlich 1:7 = 0.14 bzw. 5:2 = 2.5. Schatzt 
man die Wahrscheinlichkeit fur ein 
Ereignis auf p = 0.8, so steht die Wette 
0.8:0.2, also 4:1. 

Man druckt den Wettquotienten immer in 
ganzen Zahlen aus (4:1 statt 0.8:0.2) und 
verschleiert so, daB es sich letztlich urn 
einen Bruch von Wahrscheinlichkeiten 
handelt, die sich zu 1 addieren. Diese 
beiden Wahrsehcinliehkeiten lassen sich 
leicht aus dem Wettquotienten zuriick- 
rechnen, indem man beide Zahlen durch 
die Summe beider Zahlen dividiert. So 
beruht ein Wettquotient von 4:3 auf der 
Wahrsehcinliehkeit eines Ereignisses 
4:7 = 0.57 und ihrer Gegenwahr- 
scheinlichkeit von 3:7 = 0.43. 



Die Umwandlung der Antwortwahrschein- 
lichkeit in den zugehorigen Wettquotien- 
ten laBt sich graphisch wie folgt dar- 
stellen: Das O-l-Intervall der Wahrschein- 
lichkeiten wird in asymmetrischer Weise 
in einer Richtung geoffnet, so daB aus der 
Wahrsehcinliehkeit 0.5 ein Wert von 1 
wird, und aus einer Wahrsehcinliehkeit, 
die gegen 1 geht, wird ein Wettquotient, 
der gegen +°° geht. 



0 .5 1 




\ ' \ 




— I 1 1 i +“ 

0 12 3 

A bbi Idung 41: Die Transformation von Wahr- 
scheinlichkeiten in Wettquotienten 

Dies ist eine selir asymmetrisch verzer- 
rende Projektion des O-l-Intervalls auf den 
positiven Teil der Zahlengerade. Um diese 
Asynmietrie wieder zu beseitigen, und die 
gesamte Zahlengerade, also auch den 
negativen Wertebereich, mit einzube- 
ziehen, wird dieser Wettquotient logarith- 
rniert, was man dann als den Logit der 
W ahrscheinlichkeit bezeichnet 

T . , p(x vi = i) 

(2) Logit: log —i r. 

p(x vi =o) 



Der natiirliche Logarithmus 

Der Logarithmus einer Zahl x ist derjenige 
Exponent, mit dem man eine Gmndzahl b 
potenzieren muB, um die Zahl x zu er- 
halten: 

b log(x) = x. 

Ublicherweise werden zwei verschiedene 
Grundzahlen benutzt, zum einen die 
Grundzahl b = 10 beim dekadischen 
Logarithmus, zum anderen die Euler’ sche 
Zahl b = e = 2.718 beim natiirlichen 
Logarithmus. Im folgenden wird aus- 
schlieBlich der natiirliche Logarithmus 
verwendet. In Abweichung von der 
Konvention, ihn mit ln(x) zu bezeichnen 
wird er hier mit log(x) abgekiirzt. 
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Aus den Rechenregeln des Potenzierens 
ergeben sich die mark an ten Eigenschaften 
der logarithmischen Transformation: 

log(l) = 0, da e° = 1 

log(e) = 1 , da e 1 = e 

l°g( x ' y) = l°g(x) + log(y) 




Fiir negative Zahlen ist der Logarithmus 
nicht definiert, da auch ein negativer 
Exponent stets eine positive Zahl ergibt: 




Die Umkelnfunktion zur logarithmischen 
Funktion ist die Exponentialfunktion e\ 
die im folgenden exp(x) geschrieben wird. 

Wendet man die Exponentialfunktion auf 
den Logarithmus von x an, so erhalt man 
wieder x: 

exp(log(x)) = e log ^ = x . 



Die Logarithmierung des Wettquotienten 
bewirkt, dab die Weite nicht mein - nur 
zwischen 0 und +« sondern zwischen 
- oo und +oo variieren konnen. 

Die logarithmische Transformation be- 
wirkt eine Projektion der positiven Zah- 
lengerade auf den Gesamtbereich der reell- 
wertigen Zahlen: 

0 12 3 +°° 

X 1 // ) ' 

/ / / / 
k ‘ ' 

1 1 — I — H 1 i 

-■» -3 - 2-10 1 2 3 +°° 



Im Vergleich zum urspriinglichen Wahr- 
scheinliclikeitsintervall ist die Logit-trans- 
formation eine symmetrische Projektion 
auf die Zahlengerade, wobei dem Wahr- 
scheinlichkeitswert 0.5 der Nullpunkt der 
Zahlengerade zugeordnet wird. Den Wahr- 
scheinlichkeiten .25 und .75 werden die 
Werte -1.1 und +1.1 zugeordnet, den 
Wahrscheinlichkeiten 0.1 und 0.9 die 
Werte -2.2 und +2.2 und so weiter. 



/ 



/ 



— oo -2 



0 .5 1 . 



/ 



/ 



-1 





\ 



\ 



\ 



3 1 1 

0 12 +°° 



Abbildung 43: Die Logit-Transformation 

Im mittleren Bereich ist die Spreizung des 
Intervalls fast linear , wahrend sie zum 
Rand hin immer extremer wird (s. Abb. 
44). 




Abbildung 44: Der Graph der Logit-Funktion 



Fiir die logit-transformierten Losungs- 
wahrsehcinliehkciten kann man jetzt eine 
lineare Abhangigkeit von der Personen- 
variable annehmen, was bei den nicht- 
transformierten A n t wo rt wa It rse lie i n I i e h - 

keiten auf schwere Probleme stieb (s. Kap. 
3.1. 1.2.1): 



Abbildung 42: Die Logarithmierung von Wettquo- 
tienten 
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p(x vi = i) 

0) log 4 Y = e v 

p(x vi =o) 



Oj. 



Die Gleichung besagt, daB die Logits der 
Losungswahrscheinlichkeiten eine lineare 
Funktion der Personenfahigkeit 0 V und 
der Itemschwierigkeit a; sind. Beide Para- 
meter sind mit einem Minuszeichen 
verkniipft, damit der Itemparameter a, die 
Schwierigkeit und nicht die Leichtigkeit 
des Items ausdriickt: je groBer a,, desto 
kleiner wird der Logit der Losungswahr- 
scheinlichkeit, desto schwieriger ist also 
das Item. Ist der Itemparameter so groB 
wie der Personenparameter, so ist der 
Logit gleich Null und die Losungswahr- 
scheinlichkeit betragt 50%. 

Gleichung (3) wird nun nach p(X vi =1) 



Und Ersetzen von p n durch (1 - p,) ergibt 
Pl=(l-Pl)exp(0 v -Oj), 

oder ausmultipliziert 

Pi = exp(0 v - Oj )- p, exp(0 v - Oj ) . 



Auflosen nach p, ergibt 

Pi + Pi exp(0 v - Oj ) = exp(0 v - Oj ) 

Pl (l + exp(0 v -Oj)) = exp(0 v - Oj) 

die Losungswahrscheinlichkeit 
exp(0 v -aj) 

Pl l + exp(0 v -Oj) 

und die Gegenwahrscheinlichkeit 



Po = l-Pl = 1“ 



exp(Q v -Qj) 

1 + exp(0 v - Oj) 



1 

l + exp(0 v - Oj) 



aufgelost, um die Itemfunktion zu erhal- 
ten, die aus diesem 'linearen LogitmodelF 
folgt. 



Ableitung 

Zur Vereinfachung der Sehrcibweise sei 
p, = p(X vi = 1) und p 0 = p(X vi = 0), 
so daB Gleichung (3) lautet 

1Og ^ = 0 v-<V 

Nimmt man von beiden Seiten der Glei- 
chung die Umkelirfunktion des Logarith- 
mus, d.h. die Exponentialfunktion (s.o.), 
so erhalt man 

•^■ = exp(0 v -Oj). 

Auflosen nach p, : 

Pi = Po exp(0 v -Oj) 



Die Losungswahrscheinlichkeit 

exp(0 v - Oj) 



(4) 



>(x vi = i)= T 



+ exp(0 v - Oj) 



und ill re Gegenwahrscheinlichkeit 

p(x vi =o)=- ! 



+ exp(0 v - Oj ) 



lassen sich zu einer Modellgleichung zu- 
sammenfassen, indem man den Wert der 
Antwortvaiiable, x vl , als Faktor in den 
Exponenten des Zahlers schreibt: 



(5) 



/ exp(x vi (0 v - Oj)) 

P Xv ‘ 1 + exp(0 v - Oj ) 



Ist x vi = 1, so sieht der Zahler wie in 
Gleichung (4) aus, ist x vi = 0, so wird der 
Zahler 1. Das durch diese Gleichung de- 
finierte Testmodell wurde 1960 von dem 
Danen Georg Rasch erstmals im Detail 




3.1 Modelle fur dichotome Itemantworten 



125 



untersucht und dargestellt und wird 
seitdem als Rasch-Modell bezeichnet. 

Abbildung 45 zeigt die Itemfunktion des 
Rasch-Modells fur ein Item mit der 
Schwierigkeit Oj = 0. 




Abbildung 45: Die Itemfunktion des Rasch- 
Modells 

Der Itemparameter 0; definiert den Abs- 
zissenwert der 50%-Losungswahrschein- 
lichkeit und damit auch den Wendepunkt 
der Kurve. 1st der Parameter positiv, d.h. 
das Item schwieriger, so liegt die Kurve 
weiter rechts. 1st 0; negativ, d.h. das Item 
leichter, so liegt die Kurve weiter links. 

Dab das Rasch-Modell nur einen Itempa- 
rameter hat, namlich den Schwierigkeits- 
parameter, hat zur Folge, dab alle Item- 
funktionen den gleichen Anstieg haben 
und somit parallel beziiglich der X-Achse 
verschoben sind. 




Abbildung 46: Die Itemfunktionen von drei Items 
mit den Parametem ctj = 0, = 1 und 0 3 = 2 



Die Parallelitat der Itemfunktionen ist ein 
bedeutsames Merkmal des Rasch-Modells. 
Es bedeutet, dab alle Items eines Tests 
dieselbe Trennschdrfe haben, wenn das 
Rasch-Modell fur diesen Test gilt. 

Anhand der KFT-Daten soli die Interpre- 
tation der Parameter illustriert werden. 



Datenbeispiel 

Es ergeben sich folgende Parameter- 
schatzwerte: 

Personenparameter 0 r fur jeden Score r: 



r 


0 1 


2 


3 


4 


5 


9 r 


-2.77 -1.33 


-0.41 


0.42 


1.33 


2.76 



und Itemparameter: 



Item 


1 2 


3 


4 


5 


°i 


-1.17 -0.69 


0.04 


0.70 


1.12 



Eine Person mit der Fahigkeitsauspra- 
gung 0 = -1.33 hat bei Item Nr. 4 mit 
dem Parameter o 4 = 0.70 eine Losungs- 
walirscheinlichkeit von: 



p(x v4 = 1|0 V =-1.33) 



exp(-l. 33-0.7) 
l+exp(-1.33-0.7) 



exp(-2.03) 

1 + exp(-2.03) 



= 0.17 



Anhand dieses Datenbeispiels lassen sich 
verschiedene Charakteristika der Modell- 
parameter verdeutlichen. Zunachst ist fest- 
zustellen, dab nicht fur jede Person ein 
eigener Personenparameter berechnet zu 
werden braucht, sondern dab alle Perso- 
nen mit demselben Summenscore auch 
denselben Personenparameter erhalten. 
Das ist eine Eigenschaft, die aus dem Mo- 
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dell folgt und auf die weiter unten noch 
eingegangen wil'd. 

Fiir Personen, die kein Item gelost haben 
(r = 0) oder die alle Items gelost haben 
(r = 5), kann der Personenparameter nur 
mit Hilfe von Zusatzannahmen geschatzt 
werden, da fur diese Personen der Test 
entweder zu leicht oder zu schwer war. 
Wahrend man friiher deswegen fur diese 
beiden Personengmppen keinen Parameter 
geschatzt hat, sind heute zufriedenstellen- 
de Schatzverfahren verfugbar (s. Kap. 
4 . 2 . 1 ). 



An den Itemparametem kann man nach- 
rechnen, dab die Surnrne aller Itempa- 
rameter 0 ergibt. Man nennt dies eine 
Summennormierung Eine solche Normie- 
rung ist notwendig, da sich die Item- 
Schwierigkeiten nicht auf einer Absolut- 
Skala bestimmen lassen. Das wird anhand 
der Modellgleichung deutlich: 



(5) 



( i_exp(x vi (6 v -aj)) 
p l Xv J- ]+exp(0 v -a i ) 



Aus diesen Uberlegungen ergibt sich auch 
die Antwort auf die Frage nach dem Ska- 
lenniveau der Modellparameter im Rasch- 
Modell. Sowohl Personen- als auch Item- 
Parameter liegen auf einer Dijferenzen- 
skala, d.h. sie sind fixiert bis auf eine ad- 
ditive Transformation, welche eben durch 
die Summennormierung per Konvention 
festgelegt ist. 



Differenzenskala 

Das Skalenniveau der Differenzenskala 
liegt oberhalb des Intervallskalenniveaus 
und entspricht dem Niveau der Verhaltnis- 
skala. Wahrend bei einer Differenzenskala 
der Nullpunkt frei wahlbar ist, aber die 
Einheit festliegt (daher sind nur Additio- 
nen erlaubt), liegt bei einer Verhdltnisska- 
la der Nullpunkt fest, jedoch die Einheit 
nicht (daher sind Multiplikationen erlaubt, 
jedoch keine Additionen). Man kann auch 
sagen, die Rasch-Parameter haben das 
Skalenniveau einer logarithmierten Ver- 
hdltnisskala. 



Addiert man z.B. zu alien Itemparametem 
eine bestimmte Konstante hinzu, so andert 
das nichts an den vorhergesagten Lo- 
sungswahrscheinlichkeiten, wenn man 
gleichzeitig dieselbe Konstante zu alien 
Personenparametern addiert. Das bedeutet, 
die Menge der Personenparameter und die 
Menge der Itemparameter sind gemeinsam 
verschiebbar und miissen an irgendeinem 
Punkt fixiert werden. Es hat sich 
eingebiirgert, die Itemparameter so zu 
fixieren, dab die Summe aller Itempara- 
meter 0 ergibt (sog. Summennormiemng): 
k 

X a i=° • 

i=l 

Damit liegen auch die Personenparameter 
fest. 



Das bedeutet praktisch, dab ein einzelner 
Personenpai'ameter als Testergebnis nur 
etwas aussagt, wenn die Itemparameter so 
noimiert wurden, dab man die Personen- 
pai'ameter kriteriumsorientiert interpretie- 
ren kann (vgl. Kap. 6.5). Dagegen macht 
die Differenz zweier Personenparameter 
eine Aussage iiber den Fahigkeitsun- 
terschied zweier Personen, die unabhangig 
davon ist, 

- wie die Itemparameter normiert wur- 

den, 

- ob der Test eher leichte oder eher 

schwere Items enthalt 

- welche Eigenschafts- oder Fahigkeits- 

auspragungen die anderen getesteten 
Personen haben. 
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Man hat diese Invarianzeigenschaft der 
Parameterwerte des Rasch-Modells auch 
als Stichprobenunabhangigkeit bezeichnet. 
Dieser Begriff ist deswegen irrefiihrend, 
weil die Modellparameter des Rasch-Mo- 
dells nur dann stichprobenunabhangig 
sind, wenn das Rasch-Modell in der unter- 
suchten Population gilt. Will man dagegen 
fur einen Test erst untersuchen, ob das 
Rasch-Modell gilt, so ist es keineswegs 
beliebig, welche Personen- und Item- 
stichprobe man untersucht. Hat man z.B. 
die Geltung des Modells fur einen Test 
anhand einer Stichprobe von Gymna- 
siasten nachgewiesen, so ist nicht auto- 
matisch garantiert, daB das Modell auch 
bei Hauptschiilern auf den Test paBt. 
Zudem ist selbst bei Modellgeltung die 
Genauigkeit der Parameterschatzungen 
von der Verteilung der Item- und Perso- 
nenparameter in der Stichprobe abhangig. 

Die Unabhangigkeit der Differenz zweier 
Personenparameter von der Verteilung der 
Itemparameter im Test ist Ausdruck der 
speztfischen Objektivitcit der Testergeb- 
nisse (s. Kap. 2.1.3). Wiirde man den 
Summenscore r einer Person als MeBwert 
iln'er Fahigkeit nehmen, so ist nicht nur 
die Hohe des Scores selbst, sondern in der 
Regel auch die Differenz zweier Scores 
von der Auswahl der Items im Test ab- 
hangig. Die Eigenschaft spezifisch objek- 
tiver Testergebnisse ware nicht gegeben. 

Gilt das Rasch-Modell fur einen Test und 
eine Personenpopulation, so sind die Test- 
ergebnisse insofern spezifisch objektiv, als 
die Differenz zweier Personenparameter 
die oben genannten Invarianzeigenschaf- 
ten aufweisen. 

An dem Datenbeispiel ist weiterhin abzu- 
lesen, daB der Summenscore und die zuge- 
horige Personenparameterschatzung fast 



linear, aber auf jeden Fall streng monoton 
zusammenhangen. In der Regel betragt die 
Korrelation r = 0.90 bis r = 0.95. Die fol- 
gende Abbildung zeigt ein typisches Dia- 
gramm der Beziehung zwischen Personen- 
parameterschatzungen und Summenscores. 



A 

0 




Abbildung 47: Der Zusammenhang von Testscore 
und Personenparameter 

Lediglich an den beiden Skalenenden ist 
die Skala der latenten Dimension gegenii- 
ber der Skala der Sunmienscores gespreizt. 
Dieser enge Zusammenhang zwischen 
Summenscore und Personenparameter 
besagt auch, daB die Personenparameter - 
abgesehen von den Skalenenden - keine 
wesentlich genauere Messung del' Per- 
sonenfahigkeit bieten als die Summen- 
scores. Oft wird dies als Argument 
angefiihrt, doch gleich die Summenscores 
als MeBwert fur die Personen zu nehmen 
und sich die etwas aufwendigere Skalen- 
analyse nach dem Rasch-Modell zu erspa- 
ren. 



Summenscores oder Personenpara- 
meter? 

In der Tat spricht nichts dagegen, die 
Summenscores als MeBwerte zu verwen- 
den, wenn man festgestellt hat, daB der 
Test Rasch-skalierbar ist. Auf die Rasch- 
Analyse zu verzichten, kann jedoch nicht 
die Konsequenz sein, denn nur wenn das 
Rasch-Modell gilt, ergibt sich die darge- 
stellte Beziehung zwischen Summenscore 
und latenter Variable. Die Geltung des 
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Rasch-Modells fiir einen Test ist die Vor- 
aussetzung dafiir, daB der Sumnienscore 
eine sinnvolle Aussage iiber die Fahig- 
keitsauspragung einer Person macht. Inso- 
fern ist das Ziel einer Analyse rnit dem 
Rasch-Modell nicht primar, die Sum- 
menscores durch die Personenparameter 
zu ersetzen, sondern die Uberpriifung, ob 
es iiberhaupt gerechtfertigt ist, rnit Sum- 
menscores zu arbeiten. 



Nur wenn das Rasch-Modell gilt, 
sagt der Sumnienscore alles iiber das 
Antwortverhalten der getesteten Per- 
sonen aus. 



0 V = log 



p(x vi =i) 

p(x vi =o)' 



Da die Antwortwahrsehcinliehkeiten 

p(x v j=l) im Binomialmodell den Per- 

* 

sonenparametem 0 V entsprechen, lassen 
sich die Personenparameter beider Mo- 
delle durch eine Logit-Transformation 
ineinander iiberfiihren: 



0 V = log 



l-0v 



Diese Feststellung mag irritieren, wenn 
man daran denkt, daB auch beirn Bino- 
mial-Modell die Anzahl der gelosten Auf- 
gaben als MeBwert fiir die Fahigkeits- 
auspragung fungiert. Dies ist jedoch kein 
Widerspruch, da das Binomialmodell ein 
Spezialfall des Rasch-Modells ist. 



Das Binomialmodell als Spezialfall des 
Rasch-Modells 



Das Binomialmodell geht dadurch aus 
dem Rasch-Modell hervor, daB alle Item- 
Parameter konstant sind. In diesem Spe- 
zialfall enthalt das Modell nur noch Per- 
sonenparameter und keine Itemparameter, 
da der eine verbleibende Itemparameter als 
Konstante von alien Personenparametem 
abgezogen werden kann: 




exp(0 v ) 
l + exp(0 v ) 



Die Personenparameter liegen somit auf 
einer Absolutskala und sind lediglich eine 
Logit-Transformation del' Antwortwahr- 
scheinlichkeiten, die fiir alle Items kon- 
stant sind: 



Einen Beleg dafiir, daB im Rasch-Modell 
der Sumnienscore tatsachlich die gesamte 
Information iiber eine Person ausschopft, 
erhalt man, wenn man die Wahrschein- 
lichkeit der gesamten Datenmatrix be- 
trachtet. Ausgehend von der Modellglei- 
chung, die die Wahrscheinlichkeit einer 
einzelnen Itemantwort spezifiziert, ergibt 
sich die Wahrscheinlichkeit der gesamten 
Datenmatrix durch Aufmultiplizieren iiber 
alle Zeilen und Spalten der Datenmatrix, 
d.h. iiber alle Items und Personen: 

N k 

(6) L=p(x)=nnp(*vi). 

V=1 V— 1 



Dieser Ausdruck gibt die Wahrscheinlich- 
keit der beobachteten Daten unter der 
Annahme der Modellgeltung an. Man be- 
zeichnet diese Funktion als Likelihood- 
funktion (s.a. Kap. 3. 1.1. 2.1). 



Setzt man die Modellgleichung (5) in 
Gleichung (6) ein, so ergibt sich die 
Likelihoodfunktion 



( 7 ) 



N k 

L=nn 



v— 1 i=l 



ex p(x vi (0 V - ctj )) 
1 + exp( 0 v - O, ) 
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Die Daten sind in Form der x vi im 
Exponenten des Zahlers vertreten. Die 
Gleichung laBt sich nun so umformen, daB 
in ihr gar nicht mehr auftaucht, welche 
Person welches Item gelost hat, sondern 
nur die Summenscores der Datenmatrix. 



Ableitung 

Die Produktzeichen lassen sich getrennt 
fur Zahler und Nenner sehrcihen: 

N k , , 

n n ex p( x vi( 6 v-^i)j 

T _ v=l i=l 



N k 

n n (i+exp(e v -CT i )) 



wobei der Nenner unabhiingig von den 
beobachteten Daten ist, weil die x vi dort 
nicht enthalten sind. Der Nenner ist daher 
eine Konstante, die im folgenden mit d vi 
bezeichnet wird. 

Im Zahler dieses Ausdruckes laBt sich das 
doppelte Produkt als doppelte Sumnie des 
Exponenten sc h re i ben, da das Produkt von 
Potenzen bekanntlich gleich der Grund- 
zahl hoch der Summe der Exponenten ist: 

r N k 

L = exp XI x vi(6v -Oj 
V v=l i=l 

Das Produkt im Exponenten laBt sich 
ausmultiplizieren, so daB Item- und Perso- 
nenparameter getrennt aufsummiert wer- 
den konnen: 



( N k 



N k 



L — expl x vi ®v X X x vi 

Vv=l i=I v=l i=l 



d vi 



Man sieht nun, daB jeder Personenparame- 
ter so oft addiert wird, wie eine Person 
Items gelost hat, namlich r v -mal. Entspre- 
chend wird jeder Itemparameter so oft 



aufsummiert, wie das Item von Personen 
gelost wurde, also n r mal, d.h. 



(8) L = exp 



( N 

I 



r v e v 



k 

-I 



Vv= 



\ 

n, Oj 




Das uberraschende Result dabei ist, daB in 
dieser Funktion lediglich die Randsum- 
men der Datenmatrix, r v und n p benotigt 
werden, nicht aber das Innere der Matrix. 



Somit hangt die Walirschcinlichkeit der 
Daten unter Annahme der Modellgeltung 
nicht davon ab, welche Items von welcher 
Person gelost wurden, sondern nur davon, 
wieviele Items eine Person gelost hat bzw. 
wie oft ein Item gelost wurde. 

Man nennt diese Haufigkeitsstatistiken, 
also die Randsummcn der Datenmatrix, 
‘sujfiziente Statistiken ’ (erschopfende 
Statistiken), da sie die ganze, in den Origi- 
naldaten enthaltene Information aus- 
schopfen, die fur die Schatzung der Mo- 
dellparameter benotigt wird (s. Kap. 
3.1. 1.2.1). 

Aus diesen Betrachtungen der Likelihood- 
funktion folgen zwei wesentliche Konse- 
quenzen fur die Testauswertung: 

Erstens ist es im Falle der Geltung dieses 
Modells sinnlos, sich die einzelnen Ant- 
wortmuster der Personen anzuschauen: Es 
konnen daraus keine weiteren Erkennt- 
nisse gezogen werden als schon aufgmnd 
der Interpretation der Item- und Per- 
sonenparameter verfiigbar sind. Anders- 
herum ausgedruckt, man kann die Piiifung 
des Rasch-Modells fur einen Datensatz 
auch als Kriterium benutzen, ob es loh- 
nenswert ist, eine Patternanalyse auf 
individueller Basis vorzunehmen: eine sol- 
che Patternanalyse ist nur sinnvoll, wenn 
das Modell nicht gilt. 
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Zweitens folgt daraus, daB auch in einem 
Test mit unterschiedlich schwierigen 
Items (die ja im Rasch-Modell vorgesehen 
sind) die ungewichtete Summe der 
Itemlosungen Alles iiber die Fahigkeit der 
Person aussagt und man nicht mit der 
Schwierigkeit der jeweils gelosten Items 
bei der Summenbildung gewichten muB. 
Dies steht in einem gewissen Widerspruch 
zu dem intiutiven Vorverstandnis, daB 
man es holier gewichten miisse, wenn eine 
Person ein schweres Item lost als wenn sie 
ein leichtes lost. Sofem in einem Test die 
Itemfunktionen des Rasch-Modells gelten, 
ist eine solche Gewichtung nicht nur 
iiberfliissig, sondem auch falsch: 

JJnterscheiden sich in einem Test die 
Items hinsichtlich Hirer Schwierigkeit 
und gilt ansonsten das Rasch-Modell, 
so schopft die ungewichtete Summe 
alter Itemlosungen die gesamte Infor- 
mation iiber das Antwortverhalten 
einer Person in diesem Test aus. 

Die Likelihoodfunktion (8) zeigt zwar sehr 
anschaulich die erschopfenden Statistiken 
der Modellparameter im Rasch-Modell, 
der damit verbundene Vorteil kommt aber 
in dieser Likelihoodfunktion gar nicht 
zum tragen. Sowohl bei der Schatzung der 
Modellparameter als auch bei Modellgel- 
tungskontrollen ist es namlich von Nach- 
teil, mit einer Likelihoodfunktion zu arbei- 
ten, in der beide Parameterarten enthalten 
sind, Personen- und Itemparameter. Insbe- 
sondere die Personenparameter bereiten 
Probleme, und zwar aus zwei Griinden: 

Erstens sind es sehr viele und die pro 
Parameter zur Verfugung stehende Infor- 
mation ist nicht beliebig zu vermehren: 
mit jeder neuen Testvorgabe konmit auch 
ein neuer, zu schatzender Personenpa- 
rameter hinzu. Man nennt solche Para- 



meter inzidentelle Parameter in Abgren- 
zung zu strukturellen Parametern, fur 
deren Schatzung die Information in den 
Daten durch weitere Beobachtungen be- 
liebig vermehrt werden kann. Im Rasch- 
Modell sind die Itemparameter strukturelle 
Parameter. Das MiBverhaltnis der Anzahl 
der inzidentellen zur Anzahl der struktu- 
rellen Parameter ist sowohl bei der Para- 
meterschatzung als auch bei Modellgel- 
tungstests problematisch. 

Zweitens haben die Personenparameter- 
schatzungen besonders bei kurzen Tests 
eine sehr viel geringere Genauigkeit als 
die Schatzungen der Itemparameter (vgl. 
Kap. 4.4). Im KFT-Datenbeispiel stehen 
z.B. fur 300 Personen nur 6 verschiedene 
Schatzwerte der Personenparameter zur 
Verfugung, obwohl jede Person theore- 
tisch eine andere Fahigkeitsauspragung 
haben kann. Eine geringe Schatzgenauig- 
keit ist deswegen nachteilig, weil die 
Likelihoodfunktion die Wahrscheinlich- 
keit der Daten unter den Modellannahmen 
darstellcn soil, zu denen auch die Modell- 
parameter gehoren. Hat man aber nur sehr 
ungenaue Schatzungen der Parameter, so 
ist auch der Wert der Likelihoodfunktion 
unzuverlassig. 

Im Rasch-Modell besteht die Moglichkeit, 
eine Likelihoodfunktion zu spezifizieren, 
die nur eine Funktion der Itemparameter , 
nicht aber der Personenparameter ist. Um 
diese Funktion abzuleiten, wird Gleichung 
(6) zunachst als Produkt der Patternwahr- 
scheinlichkeiten geschrieben: 

N 

(9) L, P y = np(x v ). 

V=1 

Diese Patternwahrscheinlichkeiten werden 
dann auf die bedingten Patternwahr- 
scheinlichkeiten unter der Bedingung des 
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jeweiligen Summenscores r v zuriickge- 
fiihrt. Dies ist moglich, wenn man die 
bedingte Wahrscheinlichkeit wiederum 
mit der Walirsehcinliehkeit des betreffen- 
den Summenscores p(r v ) multipliziert, 
d.h. 

(10) p(x v )“ p( x v| r v)' p( r v)- 



Ableitung 

Diese Aufspaltung ergibt sich direkt aus 
der Definition bedingter Wahrschein- 
lichkeiten, die gleich der Wahrschein- 
lichkeit des Ereignisses und seiner Bedin- 
gung, dividiert durch die Wahrschein- 
lichkeit der Bedingung ist. 

/ . \ p(xundr) 

P(#) = ' , v 

P(r) 

Die Wahrscheinlichkeit von 'x und r’ ist 
jedoch gleich der Wahrscheinlichkeit von 
x , da es sich bei r um den Summenscore 
des Patterns x handelt. 



Die bedingte Patternwahrscheinlichkeit 
p(x v | r v) i st gleich dem folgenden Quo- 
tienten: 



( 11 ) 





p( x v ) 

Ip(*)’ 

2t|r 



wobei die Summe im Nenner iiber alle 
Pattern mit dem Score r gebildet wird. Es 
handelt sich hierbei um den Anteil, den 
eine bestimmte Patternwahrscheinlichkeit 
an der Gesamtwahrscheinlichkeit aller Pat- 
tern mit Score r hat. Das Besondere an 
Gleichung (11) ist, da6 sich auf der rech- 
ten Seite der Gleichung der Personen- 
parameter 0 V herauskiirzen laBt. 



Die bedingte Patternwahrscheinlichkeit 
als Funktion der Itemparameter 

Gleichung (11) frill rt die bedingten Pat- 
ternwahrscheinlichkeiten auf die un be- 
dingten zuriick, welche als Produkt 
der einzelnen A nt wort wall rsc hcinlichkei- 
ten geschrieben werden konnen: 

(12) p(x v ) = Il P( x vi) 
i=l 

_X exp(x vi (O v -Gj)) 
i=1 1 + exp(0 v — ctj ) ' 



Wie bei der Verkiirzung der Likelihood- 
funktion zu Gleichung (8), so kann auch 
dieser Ausdruck verkurzt werden, indem 
man das Produkt im Zahler als Summe der 
Exponenten schreibt: 



fl ex p( x vi( 0 v - a i)) 

P( x v ) = "T 

f[ (l + exp(9 v - Oj )) 



exp 



' k 

E x vi( 0 v 

\i=l 



k 
J 



Der Nenner hangt nicht von den Daten ab 
und stellt daher eine Konstante dar (d,). 



m Exponenten des Zahlers wird 0 V genau 
r v -mal aufsummiert, so da 6 dieser Aus- 
druck vor die Summe gezogen (ausge- 
klammert) werden kann: 

( k A 



exp 



r v 



0V-I 





J 



exp(r v 0 V ) • exp 



“X x vi 0 i 
V i=l 
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Eingesetzt in Gleichung (11) ergibt sich 
( k x 



exp 



(13) p(x v |r) : 



“X X vi °i 

V i=l 



X ex p 



' k X 

-X x i °i 

V i=l 



da sich nicht nur die Nenner d v kiirzen 
lassen, sondern auch der Faktor 
exp( r v 0 V ) , der bei alien Pattern konstant 
ist. Sornit bleibt tatsachlich eine Funktion 
iibrig, in der die Parameter 0 V nicht mehr 
enthalten sind. 



Der Nenner von (13) ist ebenfalls nicht 
von den Daten, also dem jeweiligen Pat- 
tern x v abhangig, sondern stellt eine 
Funktion aller Itemparameter und des 
Scores r dar. Diese Funktion bezeichnet 
man als symmetrische Grundfunktion r-ter 
Ordnung, y r (gamma). Die Struktur dieser 
Funktion wird deutlicher, wenn man die 
Summe der Exponenten als Produkt der 
Potenzen schreibt: 

k 

(14) Y r (exp(-c)) = X FI exp(-x i o i ). 

x|r i=l 



Die symmetrischen Grundfunktionen 

Um sich die Struktur dieser Funktion zu 
verdeutlichen, f'Lihrt man zunachst die fol- 
gende Transformation der Itemparameter 
durch: 

Ej = exp(— Oj), 

(e = epsilon). Die symmetrischen Grund- 
funktionen dieser sog. delogarithmierten 
Itemparameter (die Exponentialfunktion 
ist die inverse Funktion des Fogarithmus) 
lauten 

Yr( £ ) = X n x i e i 

x|r i=l 



Es handelt sich um eine Summe von Pro- 
dukten, wobei jeder Sunmiand ein Produkt 
aus r Faktoren ist. Fiir r = 1 ergibt sich 
einfach die Summe aller Itemparameter: 

Yl( e ) = E l + E 2 + e 3 + "’ +8 k • 

Fiir r = 2 ergibt sich die Summe aller 
moghchen Paare zweier Itemparameter: 

Y2( £ ) = £ l E 2 + E 1 e 3 + E 1 E 4 + ”' +E k-l E k > 
fiir r = 3 

7 3 (e) = e, e 2 e 3 +e, e 2 e 4 +e, e 2 £ 5 +---+e k _ 2 E k _, E k , 

usw. Die symmetrische Grundfunktion r- 
ter Ordnung ist die Sunmie aller Produkte 
von genau r unterschiedlichen (delogarith- 
mierten) Itemparametem. 



Nachdem sich sornit die bedingten Pat- 
ternwahrschcinlichkciten als Funktion der 
Itemparameter schreiben lassen, 



(15) 




exp 



X x i a i 



V i=i 

Y r (e x p(— a)) 






J 



laBt sich auch durch Einsetzen von (15) in 
(10) und (9) eine Likelihoodfunktion ab- 
leiten, in der die Personenparameter gar 
nicht mehr auftauchen 



(16) 



N 

mL =n p(n) 

V— 1 



exp 



' k 

-X x i °i 

k i=l 

Y r (ex.p(-a)) 



5 



J 



mF steht fiir marginale Likelihood, da in 
dieser Funktion die Randsummen (= mar- 
ginals) der Datenmatrix, also die Sum- 
menscores r v , die Personenparameter 0 V 
‘verdrangt' haben. Genau diese Summen- 
scores, bzw. deren Walirschcinlichkeiten 
p(r v ) stellen in Gleichung (16) aber neue, 
unbekannte GroBen dar. Diese Scorewahr- 
scheinlichkeiten sind Modellparameter, 
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die anhand der Daten geschatzt werden 
miissen. Ihre Schatzung ist jedoch sc hr un- 
problematisch, da sie durch die relativen 
Haufigkeiten geschatzt werden konnen: 

(17) P(0 = §-- 

Im Gegensatz zur Likelihoodfunktion (8), 
die eine Funktion von k-1 Itemparametem 
und N Personenparametern ist, ist die 
marginale Likelihood (16) eine Funktion 
von k-1 Itemparametem und lediglich k 
Scoreparametern, da fur die k+1 un- 
terschiedlichen S eo re wa h rse he i n I i e h ke i te n 
die Normiemngsbedingung 

k 

(18) Ip( r ) = l 

r=0 

gilt und somit nur k unabhangige Para- 
meter zu schatzen sind. 

Die marginale Likelihoodfunktion (16) 
enthalt nur strukturelle Parameter und eig- 
net sich sehr viel besser fur die Schatzung 
der Itemparameter und fur Modellgel- 
tungstests. Es ist eine der hervorstehenden 
Eigenschaften des Rasch-Modells, dab 
man die Itemparameter schatzen kann 
ohne die Personenparameter zu kennen 
oder gar Verteilungsannahmen bzgl. der 
Personenfahigkeiten zu treffen. 



Literatur 

Die Ableitung des Rasch-Modells (Rasch 
1960/1980) aus dem Postulat spezifisch 
objektiver Messungen findet sich bei 
Fischer (1974, 1988 und 1995a). Darstel- 
lungen des Modells aus einer meBtheore- 
tischen Perspektive bieten Hamerle (1982) 
und Steyer & Eid (1993). Anwendungen 
des Modells werden bei Fischer (1978), 
Kubinger (1988) Rost & StrauB (1992) 
und Rost und Langeheine (1996) zitiert. 
Einige beispielhafte Anwendungen sind: 



Dejong-Gierveld & Kamphuis (1985) 
Gittler (1991), Metzler & Schmidt (1992) 
und Piel et al. (1991). Eine detaillierte 
Darstellung des derzeitigen Entwicklungs- 
stands des Rasch-Modells und seiner 
Verallgemeingerungen bieten Fischer & 
Molenaar ( 1995). 



Ubungsaufgaben 

1. Jemand sagt Ihnen, die Wette stehe 
10:1, daB Person v das Item i nicht 
lost. Welche Losungswahrscheinlich- 
keit wird der Person v damit zuge- 
schrieben? 

2. Welche Wahrscheinlichkeit ist groBer? 

a) daB eine Person mit Score r=2 das 
dritte Item lost oder 

b) daB eine Person mit Score r=3 das 
vierte Item lost? 

3. Sie wollen den Test ohne das fiinfte 
Item verwenden und daher die ersten 4 
Items neu summen-normieren. Wie 
lauten die neu normierten Parameter 
der ersten 4 Items? 

4. Berechnen Sie die Itemparameter fur 
die ersten 4 Items mit dem Programm 
WINMIRA. Vergleichen Sie die Er- 
gebnisse mit dem Resultat aus Aufgabe 
3. 

5. Zeichnen Sie den (ungefahren) Verlauf 
der 5 Itemfunktionen im KFT-Beispiel. 

5. Schatzen Sie die Scorewahrscheinlich- 
keiten p(r) im KFT-Datenbeispiel. 

7. Wieviele Summanden hat die symme- 
trische Grundfunktion dritter Ordnung 
im KFT-Datenbeispiel? 

8. Welches Antwortmuster hat im Daten- 
beispiel die groBte unbedingte Wahr- 
scheinlichkeit fur eine Person mit 
0 V = 0.0, welches Muster die groBte 
bedingte Wahrscheinlichkeit, unter der 
Bedingung r = 3? 
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3.1. 1.2.3 Item Response Theorie 
(IRT): Rate- und Trennscharfe- 
Parameter 



Sollen sich die Items nicht nur hinsichtlich 
ihrer Schwierigkeit unterscheiden, sondem 
auch hinsichtlich der Trennscharfe, d.h. 
des Anstiegs der Itemfunktion, so muB ein 
zweiter Parameter in die Modellgleichung 
des Rasch-Modells eingefiihrt werden. Der 
Anstieg der Itemfunktion kann im Fall 
dichotomer Daten nur durch einen mul- 
tiplikativen Parameter im Exponenten der 
logistischen Funktion gesteuert werden, so 
daB die Modellgleichung fur das soge- 
nannte zweiparametrige logistische Mo- 
dell wie folgt aussieht: 



(1) 




exp(x vi pj(6 v -CT;)) 
l + exp(p i (0 v -Oj)) ' 



Der Parameter Bj druckt den Anstieg der 
Itemfunktion aus, wobei ein Wert groBer 
als 1 die Kurve steiler macht als im Fall 
des Rasch-Modells und ein Wert zwischen 
0 und 1 die Kurve flacher werden laBt. (3, 
ist also ein Trennscharfparameter. 




Abbildung 48: Zwei Itemfunktionen des 

zweiparametrigen Modells mit (3 P j = 2.0, 
O] = 0, Pt = 0.5 und ©2 = 2-0 



Die Interpretation des Itemschwierigkeits- 
parameters und des Fahigkeitsparameters 
ist dieselbe wie beim Rasch-Modell. Die- 
ses Modell wird auch Birnbaum-Modell 



genannt, da es bereits 1968 von Allan 
Birnbaum diskutiert wurde. 

Haben die Items unterschiedliche Item- 
trennscharfen, so ftihrt dies notwendiger- 
weise dazu, daB sich die Itemfunktionen 
uberschneiden. Das hat die Konsequenz, 
daB zwei Items fiir verschiedene Personen 
eine unterschiedliche Reihenfolge ihrer 
Losungswahrscheinlichkeiten aufweisen 
konnen: 




Abbildung 49: Zwei Itemfunktionen mit unter- 
schiedlicher Trennscharfe 

In Abbildung 49 hat Person v eine hohere 
Fosungswahrscheinlichkeit fiir Item 1 als 
fiir Item 2, wohingegen Person w eine 
hohere Fosungswahrscheinlichkeit fiir 
Item 2 hat. Dies ist insofern bemerkens- 
wert, als es schwer vorstellbar ist, daB ein 
Item fiir eine Person relativ leichter ist als 
ein anderes, wahrend es fiir eine andere 
Person relativ schwerer ist. Testet man 
nur Personen im oberen Fahigkeitsspek- 
trum, so wiirde man zu einer anderen 
Rangordnung der Itemschwierigkeiten ge- 
langen, als wenn man Personen im unteren 
Fahigkeitsspektrum testet. Die Rangfolge 
der Itemschwierigkeiten ist somit abhan- 
gig von del' Auswahl der jeweiligen 
Personenstichprobe, was zur Konzequenz 
hat, daB das zweiparametrige logistische 
Modell keine spezifisch objektiven Mes- 
sungen ermoglicht. 
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Tatsachlich wird das zweiparametrige 
logistische Modell auch vorneh mli ch dort 
angewendet, wo sichergestellt ist, daB eine 
moglichst grofie Stichprobe mit dem ge- 
samten Fahigkeitsspektrum getestet wor- 
den ist. 



Betrachtet man die Wahrscheinlichkeits- 
funktion der gesamten Daten, also die 
Likelihoodfunktion, so zeigt sich, daB die 
erschopfenden Statistiken fur die Per- 
sonenparameter nicht die Sunmienscores 
sind, sondern gewichtete Sumnien der 
Itemantworten. Die Likelihoodfunktion 



(2) L = exp 



( N k 

II 

Vv=l i = l 




laBt sich umwandeln zu (vgl. das voran- 
gegangene Kapitel): 





( N , 


f k 


1 k 1 


(3) L = expj 


I 


£ p. x V i 


k - X n i P. °i 




\ v— 1 


u=l ) 


1 i=t ) 



so daB sich die Wahrscheinlichkeit der be- 
obachtenden Daten nicht mehr allein auf- 
gmnd der Randsunmien der Datenmatrix 
bestinmien laBt, sondern das Innere der 
Datenmatrix benotigt wird. Genau be- 
trachtet wird fur jede Person eine gewich- 
tete Summe hirer Itemlosungen benotigt, 

I Pi *vi - 

i=l 

wobei jede Itemantwort mit dem Trenn- 
scharfeparameter dieses Items gewichtet 
wird. Hat eine Person ein selir trennschar- 
fes Item gelost, so zahlt das 'nichr' fur die 
Bestimmung ihrcs Fahigkeitsparameters, 
als wenn sie ein selir trennschwaches Item 
gelost hat. 

Dies ist insofern ein bedeutsames Resultat, 
als es besagt, daB nicht mit der Schwie- 
rigkeit eines Items, sondern mit seiner 
Trennschdrfe gewichtet werden muB, 



wenn man die Information berucksichtigen 
will, welche Items eine Person gelost hat. 



Das Birnbaum-Modell ist somit ein Test- 
modell, bei dem das Muster der Itemant- 
worten zur Schatzung der Fahigkeitsaus- 
pragung herangezogen wird. Das geschieht 
allerdings um den Preis, daB die Personen- 
meBwerte nicht mehr unabhangig sind von 
der Itemstichprobe. 



Soil neben der Itemschwierigkeit und der 
Trennscharfe auch noch die Ratewahr- 
scheinlichkeit eines Items in das Modell 
aufgenommen werden, so ergibt sich fol- 
gende Modellgleichung: 



(4) p(x v , = l) = Y i +(l-Y i ) 



exp(Pj(9 v — gj)) 

1 + exp(Pj(0 v -cr,)) 



In diesem sogenannten dreiparametrigen 
logistischen Modell spezifiziert der Yj- 
Parameter die Ratewahrscheinlichkeit und 
somit die untere Asymptote der Itemfunk- 
tion, die von keiner noch so niedrigen 
Fahigkeitsauspragung unterschritten wer- 
den kann. 




Abbildung 50: Die Itemfunktion des dreipa- 
rametrigen Modells mit den Parametern CJj = 0.0, 
P ! = 1.0 und 7 j = 0.25 



Dieser Rateparameter laBt sich entweder 
empirisch bestimmen, d.h. als Modellpa- 
rameter schdtzen, oder er kann prdexperi- 
mentell vorgegeben werden, wenn er sich 
aus der Art des Antwortformates ergibt. 
Z.B. kann er auf = 0.25 fixiert werden, 
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Z.B. kann er auf 7 , = 0.25 fixiert werden, 
wenn es sich um ein vierkategorielles Ant- 
wortformat mit genau einer richtigen Ant- 
wort handelt. 

Die logistischen Modelle mit unterschied- 
licher Anzahl von Itemparametem werden 
unter dem Begriff Item Response Theorie 
(IRT) zusammengefaBt. Sie werden iiber- 
wiegend in den USA irn Rahmen von 
uberregionalen schulischen Leistungstests 
(educational assessment studies) einge- 
setzt. 

Die Ermittlung der Modellparameter fiir 
diese Modelle ist recht schwierig und vom 
statistischen Standpunkt aus nicht befrie- 
digend. Die drei Itemparametertypen las- 
sen sich nicht unabhdngig voneinander 
schdtzen, so daB die Schatzungen der 
Itemschwierigkeit z.B. auch einen Ein flu 13 
auf die Schatzung der Trennscharfe oder 
des Rateparameters hat. Die Schatzpro- 
bleme verringem sich, wenn man eine 
bestimmte Verteihmg der Fahigkeiten, 
also der Personeneigenschaften annehmen 
kann, z.B. eine Normalverteilung (s. Kap. 
3. 1.1. 1.1 ‘Verteilungsannahmen’). Auf 
jeden Fall benotigt man relativ groBe 
Stichproben, um zu einigermaBen zuver- 
lassigen Parameterschatzu ngcn zu gelan- 
gen. 



Literatur 

Die Lehrbiicher zur Item Response Theo- 
rie sind ausnahmslos englischsprachig 
(z.B. Hambleton & Swaminathan (1985) 
Lord (1980)). Puchhammer (1988a) be- 
richtet iiber die Schatzbarkeit der Modell- 
parameter beirn 3 -parame trigen Modell. 
Verhelst & Glas (1995) haben als Alter- 
native zum Birnbaum-Modell (Bimbaum 
1968) das sog. One-parameter-logistic- 
model (OPLM) untersucht, in dem die 



Trennscharfeparameter nicht geschatzt, 
sondern a priori auf bestimmte Werte 
fixiert werden. Keats (1974) hat erstmals 
das 2-parametrige Modell mit 
Schwierigkeits- und Rateparametern 
untersucht, von dem Colonius (1977) 
zeigte, daB es ebenfalls keine spezifisch 
objektiven Messungen erlaubt (s.a. 
Puchhammer (1988b)). 



Ubungsaufgaben 

1. Zeichnen Sie die Itemfunktion eines 
Items mit den Parametem: 7 = 0.15, 
P = 1 .5 und a = 1.5. 

2. An welcher Stelle (Abszissenwert) 
iiberschneiden sich irn zweiparametri- 
gen Modell (Birnbaum-Modell) zwei 
Itemfunktionen mit den Parametern 
Cj = 1 . 0 , 0 ! = 1.0 und a 2 = 2 . 0 , 
3 ? = 2 . 0 ? 



3.1. 1,2.4 Die Mokken- Analyse: 
unbekannte Itemfunktionen 

Die Beschreibung des Bimbaum-Modells 
(s. vorangegangenes Kap.) hat ergeben, 
daB einander uberschneidende Itemcharak- 
teristiken eine inteipretative Problematik 
aufweisen. Andererseits ist die Annahme 
eines bestimmten Funktionstyps wie beirn 
Rasch-Modell, noch dazu mit konstanten 
Itemtrennscharfen, vielen Praktikem zu 
restriktiv. Mochte man lediglich sicher- 
stellen, daB sich die Itemfunktionen nicht 
iiberschneiden, ansonsten aber den Funk- 
tionstyp der Itemfunktion nicht weiter 
festlegen, so gelangt man zu einern Test- 
modell, das als Mokken-Analyse bekannt 
ist und auf Mokken (1971) zuriickgeht. 
Die Itemfunktionen einer Mokken-Skala 
konnen wie folgt aussehen: 
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Abbildung 51: Itemfunktionen einer Mokken- 
Skala 



Dieses Testmodell wird auch als nicht- 
parametrisches Modell bezeichnet, da die 
Itemfunktionen nicht als metrische Funk- 
tionen von Modellparametern spezifiziert 
sind, die es zu schatzen gilt. 

Die Anwendung dieses Modells auf einen 
Datensatz besteht im wesentlichen in der 
Uberpriifung, ob die Grundannahmen des 
Modells erfiillt sind. Die wesentliche 
Gmndannahme des Modells wird als dop- 
pelte Monotonie bezeichnet und druckt 
aus, dab alle Personen hinsichtlich ihrcr 
Losungswahrscheinlichkeiten zu jedem 
Item dieselbe Ordnung aufweisen miissen, 
und dab alle Items hinsichtlich ihrcr Lo- 
sungswahrscheinlichkeiten fur jede Person 
dieselbe Ordnung aufweisen miissen. 

Die erste Monotonieannahme ist nichts an- 
deres als die Annahme monoton steigender 
Itemfunktionen und lautet: 

(1) P (x v j = l) > P (x wi = i)=> P (x vj = t)> p(x w j = l) 

Aus der Tatsache, dab die Losungswahr- 
scheinliclikeit eines Items i fur Person v 
grober ist als fur Person w, mub folgen, 
dab auch die Losungswahrscheinlichkeit 
jedes anderen Items fur Person v grober ist 
als fur Person w. Offensichtlich hat in 
diesem Fall Person v eine hohere Fahig- 
keit als Person w, was sich bei alien Items 
in einer hoheren Losungswahrscheinlich- 
keit niederschlagen mub. Dies ist genau 



dann gegeben, wenn alle Itemfunktionen 
monoton ansteigen. 

Die zweite Monotoniebedingung lautet 

(2) p(x vi =l)>p(x vj = l)=>p(x wi =l)>p(x wj =l) 

und druckt aus, dab alle Itemfunktionen 
uberschneidungsfrei sein miissen: Aus 
einer hoheren Losungswahrscheinlichkeit 
von Person v fiir Item i im Vergleich zu 
Item j mub folgen, dab auch alle anderen 
Personen eine hohere Losungswahrschein- 
lichkeit bei Item i als bei Item j haben. 

Dies ist z.B. beim Birnbaum-Modell nicht 
der Fall, wie im vorigen Kapitel darge- 
stellt wurde. Beide Monotoniebedingun- 
gen sind in Abbildung 52 veranschaulicht. 




Abbildung 52: Die Erfiillung der doppelten Mono- 
toniebedingung bei monotonen und ilberschnei- 
dungsfreien Itemfunktionen 

Aus diesen beiden Monotoniebedingungen 
lassen sich verschiedene Ungleichheiten 
beziiglich der beobachteten relativen Hau- 
figkeiten von Antworten ableiten. Aus der 
ersten Bedingung labt sich z.B. ableiten, 
dab die Wahrscheinlichkeit, mit der alle 
Personen Item i und Item j losen, grober 
sein mub als das Produkt der Wahrschein- 
lichkeiten, dab sie i losen und j losen. 

(3) p(Xj = 1 a Xj = l) > p(Xj = l) • p(Xj = l) 

Diese Folgerung wird durch die Uber- 
legung plausibel, dab in Formel (3) genau 
dann ein Gleichheitszeichen gilt, wenn die 
Antworten auf die Items i und j von- 
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einander unabhangig sind (Multiplika- 
tionssatz fur Wahrschcinlichkeiten). Die 
Annahme, daB beide Items monoton stei- 
gende Itemfunktionen beziiglich derselben 
latenten Variable 0 haben, besagt aber, 
daB die Itemantworten beider Items positiv 
korreliert sind und somit die Wahr- 
scheinlichkeit gleicher Antworten groBer 
ist als das Produkt der Einzelwahr- 
scheinliclikeiten. 

Schatzt man die Walirscheinlichkeiten in 
Gleichung (3) durch die relativen Haufig- 
keiten in der vorliegenden Stichprobe, so 
kann man mit Hilfe dieser Ungleichheit 
priifen, ob die erste Monotoniebedingung 
giiltig oder verletzt ist. 

Aus beiden Monotoniebedingungen zu- 
sanimen folgt weiterhin, dab die Walir- 
scheinliclikeiten, mit denen zwei Items 
gelost werden, immer dieselbe Rangfolge 
haben miissen, wenn man ein Item kon- 
stant halt: 

(4) p(x, = 1 a Xj = l) > p(Xj = 1 a X k = l) 

=> p(x m = 1 A Xj = l) > p(x m = 1 A X k = l) 

Auch fur diese Folgerung laBt sich eine 
Plausibilitatserklarung angeben. So muB 
die erste Ungleichung in (4) dadurch be- 
dingt sein, daB Item j die latente Variable 
'bessef miBt (trennscharfer ist) als Item k. 
Wenn sich dies hinsichtlich eines Ver- 
gleichsitems i zeigt, so muB sich dieselbe 
Uberlegenheit von j aber auch hinsichtlich 
jedes anderen Vergleichsitems m zeigen. 

Auch die Folgerung (4) laBt sich anhand 
der relativen Haufigkeiten im Datensatz 
nachpriifen. 

Sind beide Monotoniebedingungen erfiillt, 
so ordnen die Summenscores der Daten- 



matrix die Personen nach ihren Fahigkei- 
ten und die Items nach ihren Schwierigkei- 
ten. Allerdings liegen diese Summenwerte 
als MeBwerte von Items und Personen 
lediglich auf einer Ordinalskala, da weder 
die Fokation eines Items auf der latenten 
Dimension definiert ist noch (infolge des- 
sen) die Fokation der Personen auf der la- 
tenten Dimension bestimmt werden kann. 
Die Mokken- Analyse ist also ein ordi- 
nates Testmodell. 



Literatur 

Das Modell geht auf Mo kk en (1971) 
zuriick und wil'd z.B. von Henning (1976) 
und Mo kk en & Lewis (1982) dargestellt. 
Meijer et al (1990) vergleichen es mit dem 
Rasch-Modell und Croon (1991) stellt die 
Mokken-Analyse als ein speziell restrin- 
giertes latent-class Modell dar. Sijtsma et 
al. (1989) verallgemeinem das Testmodell 
fiir mehrkategorielle Daten. 



Ubungsaufgaben 

Uberpriifen sie mittels der relativen Lo- 
sungshaufigkeiten, ob fiir die ersten vier 
Items des KFT-Beispiels die zweite Fol- 
gerung (Gleichung 4) erfiillt ist. (Sie be- 
notigen hierfiir die Tabelle der Pattern- 
hiiufigkeiten.) 



3.1. 1.3 Nichtmonotone eingipflige 
Itemfunktionen 

Die im vorangegangenen Kapitel behan- 
delten monoton ansteigenden Itemfunktio- 
nen sind fiir einen Test immer dann anzu- 
nehmen, wenn die einzelne Itemantwort 
als Ausdruck einer Dominanzrelation 
zwischen Person und Item betrachtet 
werden kann: Wenn die Person das Item 
dominiert, so lost sie es, wenn das Item 
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aber die Person dominiert, so ‘laBt es sich 
nicht losen\ 

Wie stark ein Item eine Person dominiert 
oder umgekehrt, ergibt sich aus dem 
Abstand des Personenmefiwertes von der 
Itemlokation auf dem latenten Kontinuum. 
Je groBer diese Distanz ist, d.h. je weiter 
rechts eine Person vom Item liegt, desto 
groBer die Dominanz iiber dieses Item. Je 
kleiner die Distanz, d.h. je weiter links die 
Person von einem Item liegt, desto starker 
dominiert das Item diese Person. 

Bei Items mit einer nichtmonotonen, ein- 
gipfligen Itemcharakteristik geht man da- 
gegen nicht von einer Dom in an /relation 
zwischen Person und Item aus, sondem 
von einer Ndherelation. Je dichter ein 
PersonenmeBwert an der Itemlokation 
liegt, und zwar egal, ob rechts oder links 
davon, desto wahrscheinlicher wird eine 
positive Itemantwort. 




A bbildung 53: Die Itemfunktion als Ausdruck 
einer Dominanzrelation 




A bbildung 54: Die Itemfunktion als Ausdruck 
einer Naherelation 



Beispiele fur solche Items, bei denen die 
Itemantwort durch eine Naherelation und 
nicht durch eine Dominanzrelation zustan- 
dekommt, gibt es weniger im Bereich der 
Leistungsmessung als vie line hr bei Ein- 
stellungsfragebdgen (s. Kap. 2. 2. 2. 6, 
‘Thurstone-Skalierung’). Gibt man etwa in 
einem Fragebogen zur politischen Orien- 
tierung eine Reihe von Aussagen vor, die 
von extrem konservativ bis extrem pro- 
gressiv reichen, und fordert die Personen 
auf diejenigen Aussagen anzukreuzen, 
denen sie am ehesten zustimmen wiirden, 
so ist zu erwarten, daB die Personen die 
ihrer Meinung am nachsten liegenden 
Aussagen ankreuzen. 

Dies setzt natiirlich voraus, daB die Perso- 
nen auf demselben Kontinuum lokalisier- 
bar sind wie die Items, d.h. es dreht sich 
auch hier um die Messung einer kontinu- 
ierlichen latenten Variable. 

Wie bei den monoton ansteigenden Item- 
funktionen, so lassen sich auch bei den 
eingipfligen nichtmonotonen Itemfunktio- 
nen Modelle mit stufenformigen Item- 
funktionen von solchen mit kontinuierlich 
ansteigenden und abfallenden Funktionen 
unterscheiden. Auf sie wird in den beiden 
folgenden Unterkapiteln eingegangen. 

Fur Testmodelle mit eingipfligen Item- 
funktionen hat sich auch der Begriff Un- 
folding-Modelle eingebiirgert. Unfolding 
heiBt zu deutsch 'Entfaltung' und stammt 
von einem Modell von Coombs (1950) 
iiber die Skalierung anhand von Bevor- 
zugungsdaten (preference data). 



Unfolding 

Der Begriff der Entfaltung (Unfolding) 
druckt folgendes aus: Ordnen sich alle 
Reize, zu denen eine Person hinsichtlich 




140 



3. Testmodelle 



ihrer Praferenz befragt wird, entlang einer 
Dimension an, und ist die befragte Person 
selbst auch als Punkt auf dieser Skala 
lokalisierbar, so wird sich die Rangreihe 
ihrer Praferenzen aufgrund der Abstande 
jedes Objektes zu der betreffenden Person 
ergeben: 




Abbildung 55: Die ‘Entfaltung" einer Praferenz- 
Skala 

In diesem Beispiel wird die hochste Prafe- 
renz der Person beziiglich Objekt C sein. 
die nachsthochste fur D, E, B, F, G und A. 

Geht man von den empirischen Daten aus, 
so beobachtet man nicht die horizontale 
Achse, d.h. das Kontinuum, auf dem die 
Stimuli und die Personen angeordnet sind, 
sondem man beobachtet die Rangfolge der 
Praferenzen dieser Person, also die verti- 
kale Achse. Die Konstruktion der waage- 
rechten Achse kann man sich dann wie ein 
Aufklappen der Senkrechten nach beiden 
Seiten vorstellen. Dieses Aufklappen oder 
Entfalten bezeichnet der Begriff Unfol- 
ding 



3.1. 1.3.1 Das Parallelogramm-Mo- 
dell: kastenformige Itemfunktionen 



Ninmit man an, dab sich alle Items auf 
einem latenten Kontinuum anordnen las- 
sen, und dab weiterhin jedes Item einen 
bestimmten Bereich um sich herum hat, in 
dem man eine positive Itemantwort zeigt 
(dem Item zustimmt), auberhalb dessen 
man das Item aber ablehnt, so gelangt man 
zu folgenden Itemfunktionen. 



P(X=1) 

H 



ol 





x = 1 x= 1 

Abbildung 56: Itemfunktionen des Parallelo- 
gramm-Modells 



Dieses deterministische Modell (deter- 
ministisch, weil es nur Wahrschein- 
lichkeiten von 0 und 1 unterscheidet) ist 
das Gegenstuck zur Guttman-Skala (vgl. 
Kap. 3. 1.1. 1.1) und weist auch ahnliche 
Eigenschaften auf. So sind Items und 
Personen auch hier nur auf Ordinal- 
skalenniveau mebbar, d.h. die genaue 
Lage der Sprungstellen labt sich ohne 
weitere Zusatzannahmen (z.B. Vertei- 
lungsannahmen) nicht bestimmen. Ebenso 
lassen sich Personen, die zwischen zwei 
benachbarten Sprungstellen auf dem laten- 
ten Kontinuum liegen, nicht voneinander 
unterscheiden, d.h. sie erhalten denselben 
Mebwert. 



Ordnet man die Items nach ihrer Lokation 
auf dem latenten Kontinuum und gleich- 
zeitig die Personen nach ihrer Lage auf der 
latenten Dimension, so zeigt die entspre- 
chend umsortierte Datenmatrix eine cha- 
rakteristische Struktur, ahnlich wie bei der 
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Skalogrammanalyse. Jedoch handelt es 
sich in diesem Fall nicht um ein Dreieck 
von Einsen, sondern um ein Parallelo- 
gramm von Einsen, das sich diagonal 
durch die Testdatenmatrix zieht. 



1 

2 

3 

4 

Person 5 
6 

7 

8 
9 



Items 
12 3 4 
0 0 0 0 
10 0 0 
110 0 
1110 
0 110 
0 0 10 
0 0 11 
0 0 0 1 
0 0 0 0 



Die Itemfunktionen, die zu dieser Paralle- 
logramm-Matrix passen, sehen wie folgt 
aus: 



p ( x = I ) 



II 


2' 3l 
1 

J 


4 


1 

1 






i i i i i i i i i e 

= 123456789 



Abbildung 57: Die zu der vorangehenden Daten- 
matrix passenden Itemfunktionen und Personenlo- 
kationen 

Wie aus dem Beispiel ersichtlich ist, mu6 
die Anordnung von Einsen und Nullen in 
der Testdatenmatrix nicht unbedingt ein 
sehr gleichformiges Parallelogramm erge- 
ben, sondem es kann je nach Breite des 
Akzeptanzintervalls der Items und deren 
Uberlappung auch stufig sein. Es konnen 
sogar Unterbrechungen ini Parallelo- 
gramm auftreten, namlich wenn eine 
Person zwischen den Akzeptanzbereichen 
benachbarter Items liegt und somit keineni 



einzigen Item zustimmt. Dies passiert bei 
Items, deren Itemfunktionen sich nicht 
uberlappen, wie z.B. in Abbildung 56 
dargestellt. 

Praziser als die Parallelogrammstmktur in 
der geordneten Testdatenmatrix ist das 
Kriterium, daB bei geordneten Items in 
keiner Zeile der Datenmatrix rechts und 
links von einer 0 eine 1 stehen darf. 
Anschaulich ausgedruckt bedeutet dies, 
daB jede Person die zwei auseinanderlie- 
gende Items bejaht, auch alle dazwischen 
liegenden Items bejahen muB. Dies folgt 
zwingend aus dem Konzept der Naherela- 
tion zwischen Personen und Items, wenn 
man ein deterministisches Antwortver- 
halten voraussetzt. 

Im Unterschied zur Guttman-Skala ist die 
Sortierung der Datenmatrix nach aufstei- 
genden Itemlokationen und Personenfa- 
higkeiten jedoch nicht anhand der Rand- 
summen moglich. Die Lokation eines 
Items ist nicht daran erkennbar, wie viele 
Personen diesem Item zugestimmt haben. 
Zwar sind die Zustimmungshaufigkeiten 
fur in der Mitte des Kontinuums liegende 
Items am hochsten und nehmen zu beiden 
Randern hin ab, jedoch ist nicht ohne 
weiteres entscheidbar, ob ein Item, deni 
wenig zugestimmt wurde, rechts oder 
links von der Mitte liegt. Dennoch ist es in 
der Praxis unproblematisch, die Datenma- 
trix in eine Parallelogrammform umzusor- 
tieren, sofern diese existiert. 



Datenbeispiel 

Im folgenden ist der kleine Beispiel- 
datensatz dieses Kapitels so umsortiert, 
daB sich moglichst eine Parallelogramm- 
struktur ergibt: 
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Item 

1 2 3 4 5 



3 

10 

9 

7 

Person 8 
12 
6 

4 

5 



0 0 0 0 0 
0 0 0 0 0 
10 110 
11111 
0 110 1 
0 10 11 
0 0 10 1 
0 0 111 
0 0 0 1 0 
0 0 0 1 
0 0 0 1 



1 
1 

0 0 0 0 1 



Bei 4 Personen ist die Bedingung 
verletzt, daB nicht rechts und links 
von einer 0 eine 1 stehen darf. Insgesamt 
sind es auch nur 4 unzulassige Itemant- 
worten, die die geforderte Struktur 
storen. Berechnet man auch hier 
ein ReproduzierbarkeitsmaB (s. Kap. 
3. 1.1. 1.1), so ergibt sich mit 

Re p = 1 - — = 0.94 
60 

sogar eine noch bessere Modellanpas- 
sung als fur die Guttman-Skala. Aller- 
dings ist das vorliegende Modell auch 
‘schwacher’, d.h. die Dreiecks-Bedingung 
der Guttman-Skala ist ein Spezialfall der 
Parallelogramm-Bedingung. 



Schwierig ist auch hier die Frage nach der 
Modellgeltung, wenn es Abweichungen 
vom deterministischen Antwortverhalten 
gibt. Vorausgesetzt diese Abweichungen 
sind so schwach, daB sich die Ordnung der 
Items ermitteln laBt, kann der Grad der 
Modellabweichung iiber die Anzahl unzu- 
lassiger Itemantworten, also die Anzahl 
von 101-Tripeln in der Datenmatrix be- 
stinmit werden. Die Auszahlung derartiger 
Modellverletzungen ist Ausdruck einer 



nachtraglichen Fehlertheorie ftir ein 
deterministisches Modell. 

Anstelle einer solchen nachtraglichen Feh- 
lertheorie gibt es auch den Ansatz, analog 
zur Mokken-Analyse (s. Kap. 3.1. 1.2.4) 
probabilistische eingipflige Itemfunk- 
tionen anzunehmen, jedoch deren genauen 
Verlauf unbestimmt zu lassen. 



Literatur 

Die Unterscheidung von Dominanz- und 
Naherelation geht auf die Datentheorie 
von Coombs (1964) zuriick, die auch 
Coombs et al. (1975) und Roskam (1983) 
behandeln. Das Parallelogramm-Modell 
wurde ebenfalls von Cooms (1964) 
eingefiihrt. Van Schuur (1988) heschrciht 
probabilistische Unfolding-Modelle. Post 
und Snijders (1993) diskutieren als Pen- 
dant zur Mokken-Analyse das nicht- 
parametrische Unfolding-Modell und v. 
Schuur (1993) dessen Verallgemeinerung 
fur mehrkategorielle Daten. 



Ubungsaufgabe 

Die folgende Datenmatrix erfiillt die Be- 
dingungen des Parallelogramm-Modells: 
Items 

1 2 3 4 5 

1 
2 

Person 3 

4 

5 

6 



Wie lautet die Reihenfolge der Items 
nach aufsteigender Schwierigkeit, wie 
die Reihenfolge der Personen nach 
aufsteigender Fahigkeit? 



1 

1 

1 1 
1 1 

1 1 
1 1 
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3.1. 1.3.2 Kontinuierliche, eingipflige 
Itemfunktionen 

Die Entwicklung von probabilistischen 
Testmodellen mit eingipfligen Itemfunkti- 
onen ist wesentlich weniger fortgeschritten 
als die fur monoton ansteigende Item- 
funktionen. Es laBt sich derzeit noch nicht 
abschlieBend sagen, welches der verschie- 
denen moglichen Modelle den obenge- 
nannten Kriterien der Einfachheit, psycho- 
logischen Plausibilitat und statistischen 
Handhabbarkeit am ehesten entspricht. 

Tm Gegensatz zu monoton ansteigenden 
Itemfunktionen, bei denen die Losungs- 
wahrscheinlichkeit eines Items mit stei- 
gender Differenz von Fahigkeitsparameter 
und Schwierigkeitsparameter ansteigt, 
muB bei eingipfligen Itemfunktionen die 
Antwortwahrscheinlichkeit mit zuneh- 
mendem Absolutbetrag der Differenz von 
Personen- und Itemparameter absinken. 

Das bedeutet, je geringer der Abstand der 
Personenfahigkeit von der Lokation des 
Items ist, desto grofier ist die Wahrschein- 
lichkeit einer positiven Itemantwort. Je 
groBer der Abstand von der Eigenschafts- 
auspragung und der Itemlokation ist, und 
zwar egal, ob in negativer oder in positiver 
Richtung, desto kleiner ist die Wahr- 
scheinlichkeit einer positiven Itemantwort. 




Abbildung 58: Die Itemfunktion als Funktion des 
fabsoluten) Abstands von Person und Item 



Die Antwortwahrscheinlichkeit eines 
Items kann also wie bei monotonen Mo- 
dellen eine Funktion der Differenz von 
Personen und Itemparameter sein, jedoch 
darf das Vorzeichen dieser Differenz keine 
Rolle spielen. Ein in der Statistik tiblicher 
Weg, um das Vorzeichen von Differenzen 
auszuschalten, besteht darin, die Differen- 
zen zu quadrieren. 



Geht man wie beim Rasch-Modell wieder 
von den logit-transformierten Antwort- 
wahrsehcinliehkeiten aus (vgl. oben Kap. 
3.1. 1.2.2), so muB man diese Logits gleich 
der negativen quadrierten Differenz von 
Personen- und Itemparameter setzen, da 
die Antwortwahrscheinlichkeiten mit stei- 
gender Differenz sinken sollen. 



, p(Xvi = 0 ,2 

(1) log- 7 - - T = -(e v -a i ) . 

1 - Pl X vi = U 



Lost man diese Gleichung wiederum nach 
der A n t wort wall rse hcinliehkeit p(x vi ) auf 
(s. ebenfalls Kap. 3.1. 1.2.2), so erhalt man 
das folgende Testmodell: 

(2) P( x vi) / 

l + exp(-(0 v -Oj) 2 ] 



ex P\ 



- x vi(e v 



■®i. 



Die Itemcharakteristik dieses Testmodells 
ist in Abbildung 59 wiedergegeben, wobei 
auffallt, daB die hochste Antwortwahr- 
scheinlichkeit (bei einer Nulldifferenz von 
Personen- und Itemparameter) lediglich 
p = 0.5 betragt. 




144 



3. Testmodelle 




Abbildung 59: Die Itemfunktion des ‘quadra- 
tischen’ Testmodells 

Das liegt da ran, daB der Exponent maxi- 
mal 0 werden kann und e° / ( 1 + e°) ledig- 
lich 1/2 ist. Trotz sonstiger vorteilhafter 
statistischer Eigenschaften dieses Modells 
diirfte dieser Sachverhalt seine Brauchbar- 
keit einschranken. Es ist psychologisch 
nicht sehr plausibel, daB die Zustim- 
mu ngswalirseheinliclikeit fur ein Item, das 
der eigenen Eigenschaftsauspragung genau 
entspricht, nicht groBer sein soli als die 
‘Ratewahrscheinlichkeit’ von 0.5. 



Diesen Nachteil versucht eine andere 
Itemfunktion auszugleichen, die ebenfalls 
von der quadrierten Differenz zwischen 
Personen- und Itemparameter ausgeht, 
jedoch statt der gewohnten logistischen 
Funktion die folgende Funktion wahlt: 



( 3 ) 



p(x vi = i) 



1 

i + (e v - G; ) 2 



Zusanmien mit der Gegen wahrsehc iniieh 
keit 



( 4 ) 



p(x vi =o) = 



(6y-qj ) 2 

l + (0 v -ai) 2 



full rt dies zu der Modellgleichung 



( 5 ) 




(e v -gj) 2 ' (l 

i+(e v -°i) 2 



Die folgende Abbildung zeigt den Verlauf 
der Itemfunktionen bei diesem Testmodell 
(sog. Parella-Modell). 




Abbildung 60: Die Itemfunktion von Modell (5) 



Wahrend dieses Modell einen plausiblen 
Verlauf der Itemfunktionen hat, die bei 
Ubereinstimmung von Item- und Perso- 
neneigenschaft auch den Wert 1 erreichen, 
fehlt hier jedoch eine naehvollziehbare 
Ableitung der Modellgleichung aus einfa- 
chen Annahmen iiber das Antwortver- 
halten. 

Eine solche naehvollziehbare Ableitung 
der Modellgleichung bietet ein dritter An- 
satz fur ein logistisches Testmodell mit 
eingipfliger Itemfunktion. Es leitet sich 
allerdings aus dem verallgemeinerten 
Rasch-Modell fur ordinale, genauer: drei- 
kategorielle ordinale Itemantworten ab 
und setzt daher den Inhalt von Kapitel 
3.3.1 voraus. Dort ist erlautert, daB die 
Itemfunktion fur drei geordnete Antwort- 
kategorien folgendermaBen aussieht: 




Abbildung 61: Die Itemfunktion fur 3 geordnete 
Antwortkategorien (vgl. Kap. 3.3.1) 
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Die interessante Eigenschaft dieser Item- 
funktion besteht darin, daB die mittlere 
Antwortkategorie bereits eine eingipflige 
Wahrsehcinlielikeitsf'unktion hat, wahrcnd 
die Funktion fur Kategorie 0 monoton 
sinkend, die fur Kategorie 2 monoton 
steigend ist. 



Beispiel 

Zur Beantwortung der Fragen: 

Wie geht es Ihnen? 

werden 3 Antwortkategorien vorgeben, 

0: ‘schlecht’ 

1: ‘mittel’ und 
2: ‘gut’ 

Mit zunehmendem Wohlbefinden wird die 
Walirseheinliehkeit, ‘schlecht’ zu antwor- 
ten, monoton sinken, ‘gut’ zu antworten, 
monoton steigen. Die Walirseheinliehkeit 
der Antwort ‘mittel’ wird bei geringem und 
rohem Wohlbefinden niedrig, im Mittel- 
bereich hoch sein. Die Mittelkategorie hat 
also eine eingipflige Wahrscheinlichkeits- 
funktion! 



Die Mittelkategorie bei einem dreikate- 
goriellen Item hat dieselben Eigenschaf- 
ten, wie die Zustimmungskategorie in 
einem Unfolding-Modell: Sie wird am 
wahrscheinlichsten gewahlt, wenn eine 
Person eine Eigenschaftsauspragung hat, 
die dem Abszissenwert des Gipfels ent- 
spricht. Ist die Eigenschaftsauspragung 
sehr viel weiter links oder weiter rechts, so 
antwortet die Person eher in einer anderen 
Kategorie: bei einem dreikategoriellen 
Item in Kategorie ‘0’ oder ‘2’, bei einem 
Unfolding-Item in der Ablehnungskate- 
gorie ‘O’. 

Somit ergibt sich die Mbglichkeit, die 
Wahrscheinlichkeitsfunktion der O-Kate- 



gorie eines Unfolding-Items dadurch zu 
erhalten, daB man die Wahrscheinlich- 
keitsfunktion der beiden auBeren Kate- 
gorien eines dreikategoriellen Items zu- 
sammenlegt, d.h. addiert. 

Die Itemfunktion, die sich aus der Zusam- 
menlegung der Kategorien 0 und 2 ergibt, 
sieht dann folgendermaBen aus: 




Abbildung 62: Die Itemfunktion aus Abbildung 
61, wenn die Wahrscheinlichkeiten von Kategorie 
0 und 2 addiert werden 

Beide Kurven addieren sich an jedem 
Punkt des Kontinuums zu 1, da sie die 
A nt wort wall rse hcinliehkeite n fur 2 einan- 
der ausschlieBende Kategorien beschrei- 
ben. 

Man kann die Konstruktion eines Unfold- 
ing-Modells nach dieser Idee auch folgen- 
dermaBen charakterisieren: Der Antwort- 
prozeB bei einem Unfolding-Item mit den 
beiden Kategorien ‘stimme zu’ und ‘lehne 
ab’ entspricht dem AntwortprozeB bei 
einem dreikategoriellen Item mit den 
Kategorien ‘stimme noch nicht zu’, 
‘stimme zu’ und ‘stimme nicht mehr zu’. 
Man hat bloB bei dem Unfolding-Item 
‘vergessen’ zu erfragen, ob man den Item- 
inhalt ablehnt, weil man weiter links oder 
weiter rechts vom Item liegt. Natiirlich ist 
dies keine Frage des ‘vergessen habens’, 
sondern man meint, diese zusatzliche In- 
formation nicht valide erfragen zu konnen, 
weil eine Antwort die Kenntnis der eige- 
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nen Position auf deni latenten Kontinuum 
voraussetzt oder weil die Formulierung 
des Items zu komplex wird. 

Im Folgenden wird die Modellgleichung 
des entsprechenden Unfolding-Modells 
aus der Modellgleichung des dreikatego- 
riellen, ordinalen Rasch-Modells abgelei- 
tet (s. Kap. .3.3.1) 



Multipliziert man in beiden Gleichungen 
Zahler und Nenner mit exp(-0 v +Xj]), so 
ergeben sich die folgenden Modellglei- 
chungen: 

(8) p(x vi = l) j— r-i 7 V 

exp(-6 v + Xj! j + 1 +exp(0 v -x i2 j 

, s exp(-0 v +Tj|) + exp(e v -x i2 ) 

Pv^vi — Oj — 7 — T ■ J— T 

exp)-O v + ij l j + 1 + exp(0 v - x i2 j 



Die Wall rsehc iniiehkeitcn fiir drei geord- 
nete Antwortkategorien lauten 



(6) p(x vi 
p(x vi 
p(x vi 



0 = 
2 ) = 



exp 



(l-0 v -Xii) 



d v j 

exp(2 0 v -x n -x i2 ) 
dyi 



wobei die Parameter Xp und Xj 2 die Abs- 
zissenwerte der beiden Schnittpunkte der 3 
Kurven in Abbildung 61 definieren (vgl. 
Gleichung (8) in 3.3.1). Sie sind auch in 
Abbildung 62 eingezeichnet, entsprechen 
hier aber nicht mehr den Schnittpunkten 
der beiden Kurven I 

Da der Nenner d vl dieser drei Gleichungen 
sicherstellen muB, daB sich die drei Walir- 
scheinlichkeiten zu 1 addieren, ist er 
gleich der Summe der drei Zahler: 

d vi =t+exp(e v -x il ) + exp(2 0 v -Xjj -x i2 ). 



Werden nun die Kategorien 0 und 2 
vereinigt zu der neuen Kategorie 0, so 
lautet deren Walirsehcinlielikeit: 

Ur M l+exp(2 0 v -x il -x i2 ) 
(7) p(,X vi - Oj = g- • 

Die Walirsehcinlielikeit der 1-Kategorie 
bleibt so, wie sie in den Gleichungen (6) 
definiert wurde. 



Wall re nd die Interpretation des Personen- 
parameters 0 V dieselbe ist wie bei alien 
Testmodellen (er gibt die Lokation von 
Person v auf deni latenten Kontinuum an), 
stellt sich die Frage nach der Interpretation 
der beiden Itemparameter Xj j und und x i2 . Die 
folgende Abbildung zeigt einige Beispiel- 
items: 




Abbildung 63: Die Itemfunktionen fiir drei Items 
mit den Parametern Xp = -3.5 und X ] 2 = -0.5, 

X 2 ] = -0.5 und X 22 = +0.5, X 31 = 0.0 und 
X 32 = 2.0. 

Beide Parameter zusammen, d.h. ihr Mit- 
telwert, bestimmen die Lokation des 
Items, also seine Schwierigkeit. Ihr Ab- 
stain! bestimmt zusatzlich die Hohe der 
Kurve: bei kleinem Abstand ist der Hiigel 
niedrig, bei groBem Abstand hoch. 

Mit Hilfe einer relativ unbekannten Funk- 
tion, die diesem Modell seinen Namen 
gibt, dem Hyperbelcosinus, lassen sich die 
Modellgleichungen (8) vereinfachen. 
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Die Funktion des Hyperbelcosinus (cosi- 
nus hyperbolicus) ist iiber die Exponen- 
tialfunktion definiert 

(9) cosh(x)= eX d l >tpEd . 

Um von dieser Funktion Gebrauch ma- 
chen zu konnen, wird an der Modell- 
gleichung ( 8 ) eine Reparametrisierung 
vorgenommen, und zwar werden die bei- 
den ' Se h we 1 1 e n p ara mete r ’ (s. Kap. 3.3.1) 
durch ihren Mittelpunkt Gj =(x;j + x, 2 )/^ 
und ihren Abstand vom Mittelpunkt 
5j = (xj 2 - Xji)/2 ersetzt, so daB 

Xjl =Gi - 8 , 
und X ; 2 = Ctj + 8 j 

Der Parameter a, parametrisiert somit die 
Lokation des Items und ist ein Schwie- 
rigkeitsparameter, 8 , parametrisiert die 
Breite der Itemfunktion und wird als Dis- 
persionsparameter bezeichnet. 



In diesen Gleichungen lassen sich nun 
jeweils zwei Exponentialfunktionen, deren 
Exponenten sich nur im Vorzeichen un- 
terscheiden, durch den Hyperbelcosinus 
(S.O.) ersetzen 

(H) p(X "°' K»p(8,)h-Tc S!(e v -a,) 

\ 2cosh(9 v -o i 

^ Vl ^ exp(5j ) + 2 cosh(0 v 

Dieses Modell wird als Hyperbelcosinus- 
Modell bezeichnet. 




Erste Erfahrungen mit diesem Modell zei- 
gen, daB sich die Dispersionsparameter 8 j 
nur schwer schatzen lassen, so daB der 
Gedanke nahe liegt, sie auf einen festen 
Wert zu fixieren. Eine solche Restriktion 
entspricht auch eher der Situation beim 
Rasch-Modell (s. Kap. 3.1. 1.2.2), bei dem 
ebenfalls kein Trennscharfeparameter son- 
dern nur ein Schwierigkeitsparameter ge- 
schatzt wird. 



Setzt man diese neuen Parameter in die 
Modellgleichungen ( 8 ) ein, so erhalt man 

( 10 ) p(x vi l) eX p(_ 0 v+c . _g. ) + ] +exp( 0 v - Oj - 8 j ) 

I \ exp(- 6 v + o, - 8 ;) + exp( 8 v -Oj -Sj) 

** vi exp(- 0 v +o, - 8,) + 1 + exp( 0 v - a; - 8 j ) 



Ableitung 

Multipliziert man in beiden Gleichungen 
Ziihler und Nenner mit exp( so kiirzt 
sich der Dispersionsparameter aus den Ex- 
ponentialfunktionen heraus: 

I \ exp(5j) 

P Xv ' * exp(-0 v + o, ) + exp(8j ) + exp( 0 V - Oj ) 

, \ exp(-e v +0;) + exp(e v - gj) 

P V1 exp(— 0 V + Oj ) + exp(8i ) + exp(0 v - O; ) 



Eine Fixierung der 8 t auf den Wert 
8 , = log(2) = 0.69 
full rt zu der Modellgleichung 

( 12 ) p(X vi =l) = 7 r 

l + cosh(0 v — Gj ) 

( \ cosh(9 v -Gj) 

^ vi 1 +cosh(0 v - Gj ) ’ 

die dem Rasch-Modell sehr ahnlich ist. In 
beiden Fallen hiingt die Antwortwahr- 
scheinlichkeit nur von der Differenz von 
Personenfahigkeit und Itemschwierigkeit 
ab, jedoch einmal mittels der Exponential- 
funktion und einmal mittels des Hyper- 
belcosinus. Abbildung 64 zeigt den Ver- 
lauf dieser beiden Funktionen. 
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Ubungsaufgabe 

Welchen Wert nimmt im Modell (8) die 
Wahrscheinlichkeit einer 1-Antwort maxi- 
mal an, wenn die beiden Itemparameter 

a) Tjj = x l2 = +1.0 betragen, 

b) Xjj = 0.0 und x i2 = 4.0 betragen? 



Abbildung 64: Del- Verlauf der Exponential- 
funktion und des Hyperbelcosinus 



Literatur 

Das ‘quadratische’ Testmodell wurde von 
Andrich (1988a) beschrieben, das Modell 
ohne Exponentialfunktion der Parameter, 
Modell (5), ist eines von mehreren Model- 
len, die Hoijtink (1990, 1991) diskutiert 
und - in Anspielung auf die Parallelo- 
grammstruktur der Datenmatrix - unter 
deni Namen PARELLA zusammenfaBt. 
Andrich & Luo (1993) und Verhelst & 
Verstrahlen (1993) haben gleichzeitig und 
unabhangig voneinander das Hyperbel- 
cosinus-Modell (8) entwickelt. Letzteres 
wurde von Andrich (1995) und Rost und 
Luo (1995) fur mehrkategorielle, ordinale 
Itemantworten verallgemeinert. Auf das 
nicht-parametrische Unfolding-Modell 
von Post & Snijders (1993) und dessen 
Verallgemeinerung fur melirkategorielle 
Daten wurde bereits im vorangehenden 
Kapitel hingewiesen. 
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3.1.2 Modelle mit qualitativer 
Personenvariable 

Das zentrale Konzept, nach dem sich Mo- 
delle mit quantitative! Personenvai'iable 
unterscheiden lassen, ist das Konzept der 
Itemcharakteristik oder Itemfunktion. Die 
Itemfunktion beschreibt bei dichotomen 
Items die Abhangigkeit der Losungs- 
waln'scheinliclikeit von der latenten Va- 
riable. Ist die Personenvai'iable qualitativ 
oder kategorial (was in diesem Zusam- 
menhang synonym ist), so laBt sich die 
Itemcharakteristik allenfalls als Abfolge 
einzelner Punkte darstellen: 

p(X vi =l) 



1 2 3 4 =0 

A bbildung 65: Eine Itemfunktion bei einer kate- 
gorialen Personenvariable 

Da die Personenvariable nur eine begrenz- 
te Anzahl diskreter Werte annehmen kann, 
gibt es keinen zusammenhangenden Kur- 
venverlauf. Bei einer ‘echten’ kategorialen 
Personenvariable ist auch die Abfolge der 
Valenzen, die in der Abbildung mit ‘1’, 
‘2’, ‘3’ und ‘4’ bezeichnet wurden, beliebig. 

Nur wenn die Kategorien der Personen- 
variable eine Ordnung beinhalten, sind die 
Valenzen, mein' als nur ‘Hausnummern’ . 
Sollen z.B. die vier Auspragungen in Ab- 
bildung 65 als Abstufungen einer Fahig- 
keitsvariable interpretiert werden, so ist 
die richtige Benennung und Anordnung 
der Valenzen der Personenvariable: 



P(X vi =l) 



1 (3) 2 (4) 3 (1) 4 (2) = 0 

Abbildung 66: Die Itemfunktion aus Abbildung 
65 mit geordneten Valenzen der Personenvariable 

Man kann auch hier von einer monoton 
ansteigenden Itemfunktion sprechen. Eine 
solche Monotonie kann immer durch Um- 
benennung der Valenzen hergestellt wer- 
den, solange man nur ein Item betrachtet. 

Bereits bei 2 Items, aber erst recht bei 
noch mein' Items ist es nicht inmier mog- 
hch, die Valenzen der Personenvariable so 
zu sortieren, da6 alle Items monotone 
Itemfunktionen haben. Die folgende Ab- 
bildung zeigt die Itemfunktionen von drei 
Items, von denen zwei monoton sind (* 
und q), jedoch die dritte (<-) nicht. 

P(X v j=l) 

o 

* 

❖ 

■> * o 

o o 

* 



1 2 3 4 =0 

Abbildung 67: Die Itemfunktionen von drei Items 
(&, O und -v-) 

Das bedeutet, auch bei einer kategorialen 
Personenvariable stellt es einen Spezialfall 
dar, wenn es eine Anordnung der Valen- 
zen gibt, bei der alle Items monoton sind. 
Man bezeichnet in diesem besonderen Fall 
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die latente Variable als ordincilskaliert, 
weil die Valenzen der Personenvariable 
dadurch eine eindeutige Ordnung erhal- 
ten, dab alle Ldsungswahrsehcinliehkeiten 
einer hoheren Valenz groBer sind als die 
jeweiligen Losungswahrscheinlichkeiten 
einer niedrigeren Valenz. 

Die Kategorien einer qualitativen 
Personenvariable sind ordinalska- 
liert, wenn es eine Anordnung dieser 
Kategorien gibt, so dafi die Losungs- 
wahrscheinlichkeiten aller Items fiir 
eine hohere Kategorie der Personen- 
variable grofier sind als die Ld- 
sungswahrscheinlichkeiten fiir eine 
niedrigere Kategorie. Dies ist gleich- 
bedeutend damit, dafi es eine Anord- 
nung der Kategorien der Personen- 
variable gibt, fiir die alle Itemfunk- 
tionen monoton steigend sind, 

Die Kategorien oder Valenzen einer quali- 
tativen Personenvariable definieren eine 
Klasseneinteilung auf der Menge der 
Personen. 



Klasseneinteilung 

Ordnet man jeder Person ihren (katego- 
rialen) MeBwert zu, so bildet man Teil- 
mengen von Personen, die disjunkt (iiber- 
schneidungsfrei) und exhaustiv (aus- 
schopfend) sind. Das heiBt nichts anderes, 
als daB jede Person nur einer Teilmenge 
angehort (und nicht zwei oder drei) und 
daB jede Person einer solchen Teilmenge 
angehort. Eine Einteilung einer Menge in 
disjunkte und exhaustive Teilmengen 
nennt man eine Partition oder Klassen- 
einteilung. 



Aus diesem Grund spricht man bei 
Testmodellen mit qualitativer Personen- 
variable auch von Modellen mit latenten 



Klassen: MiBt man eine kategoriale Vain- 
able, so miBt man damit eine Klassen- 
zugehorigkeit, wobei jede Kategorie der 
Variable eine Klasse definiert. ‘Latent’ 
heiBen die Klassen deshalb, weil die kate- 
goriale Variable nicht beobachtbar oder 
manifest ist (wie z.B. das Geschlecht oder 
die Haarfarbe), sondern ebenso unbekannt 
ist, wie die (latente) Dimension, die man 
mit einem quantitativen Test messen will. 

Anstatt von einer ordinalen Personen- 
variable kann man daher - und dies ist der 
gelaufigere Sprachgebrauch - von geord- 
neten Klassen sprechen. 

Klassen heifien dann geordnet, wenn 
man sie so anordnen kann, dafi alle 
Itemfunktionen monoton sind. 

Als Beispiel fiir ein Testmodell mit ge- 
ordneten Klassen kann ein Spezialfall an- 
gefiihrt werden, der auch schon im 
vorangehenden Kapitel 3.1.1 behandelt 
wurde. Gemeint ist der extreme Fall, bei 
dem alle Ldsungswahrsehcinliehkeiten nur 
die Werte 0 oder 1 annehmen konnen. Die 
monotonen Itemfunktionen sehen dann bei 
4 Items wie folgt aus: 

P(X vi =i) 

j # 0>o 0<>o* 



»o<> «o * 



1 2 3 4 5 =0 

A bbi Idung 68: Die Itemfunktionen von 4 Items 
mit geordneten Klassen 

Tatsachlich ist die optische Ahnlichkeit 
zum Modell der Guttman-Skala (s. Kap. 
3. 1.1. 1.1) nicht zufallig: Ein solches Klas- 
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sen-Modell ist die Guttman-Skala. Die 5 
Valenzen der latenten Variable sind in Ab- 
bildung 68 so angeordnet, dab sie Punkte 
auf einer latenten Dimension markieren. 
Natiirlich ist der Abstand dieser Punkte 
nicht bekannt. Aber die genaue Lokation 
der Sprungstellen der Itemfunktionen bei 
einer Guttman-Skala ist ebenfalls nicht 
bekannt. 

Man kann daher die Sprungstellen der 
Items irgendwo zwischen den Valenzen 
der latenten Variable einzeichnen und die 
einzelnen Personenklassen als Zusam- 
menfassung aller Personen, die zwischen 
zwei Sprungstellen liegen, betrachten: 



P(X=1) 




1 2 3 4 5 



Abbildung 69: Die Guttman-Skala als kategoriales 
und kontinuierliches Modell 



P(X vi =l) 

* 

© 



Q 



1 2 3 4 5 =9 

Abbildung 70: Beliebige, nichtmonotone Item- 
funktionen 

In den folgenden Unterkapiteln wird zu- 
nachst auf das deterministische Testmo- 
dell mit ungeordneten Klassen eingegan- 
gen (denn dasjenige mit geordneten Klas- 
sen ist ja die bereits behandelte Guttman- 
Skala). Danach wird auf das allgemeine 
probabilistische Modell mit ungeordneten 
Klassen eingegangen (Kap. 3. 1.2.2). Auf 
dessen Spezialfalle mit geordneten Klas- 
sen wird in den Unterkapiteln 3. 1.2.3 und 
3. 1.2.4 eingegangen. 




Die Guttman-Skala ist in zweifacher 
Hinsicht ein Spezialfall eines Testmodells 
mit qualitativer Personenvariable: 

Erstens ist sie deterministisch, d.h. un- 
terscheidet nur Wahrscheinlichkeiten 
von 0 und 1 und 

zweitens weist sie geordnete Klassen 
auf, was ebenfalls einen Spezialfall 
darstellt. 



3.1.2.1 Deterministische Klassen: 
verbotene Antwortmuster 

Deterministische Klassen von Personen 
erwartet man bei einer Testvorgabe inimer 
dann, wenn man davon ausgeht, dab nur 
bestimmte Muster von Antworten in deni 
Test oder Fragebogen moglich sind. Dies 
ergibt sich z.B. dadurch, dab die Ant- 
worten auf einige Fragen bestimmte Ant- 
worten bei den anderen Items implizieren. 



Im allgemeinen Fall, d.h. ohne diese bei- 
den Einschrankungen konnen die Item- 
funktionen zur Messung einer kategorialen 
Variable sehr chaotisch aussehen: 



Ein Beispiel hierfiir sind Wissen- und 
Kenntnistests, deren Items hierarchisch 
zusammenhangende Wissenselemente ab- 
decken. 
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Beispiel 

Ein Mathematik-Test besteht aus folgen. 
den 4 Items: 

1. Welche Zahl bezeichnet man 
als die Eulersche Zahl? 

2. Wieviel ist e 2 ? 

3. Wieviel ist 3.5 2 ? 

4. Wieviel ist 1.4 . 2.5? 

Diesem Test liegen drei Wissenseinheiter; 
zugrunde, namlich die Kenntnis der Euler- 
schen Zahl sowie das Beherrschen des 
Quadrierens und der Multiplikation. Gehl 
man davon aus, dab alle drei Wissens- 
elemente nach dem Alles-oder-nichts-Prin- 
zip beherrscht werden, wobei allerdings 
das Quadrieren das Multiplizieren voraus- 
setzt, so sind lediglich die folgenden Ant- 
wortmuster zu erwarten: 

0000 fur Personen, die keines der Wis- 
senselemente beherrschen 

1000 fur Personen mit Kenntnis der 
Eulerschen Zahl 

0011 fur Personen, die quadrieren konnen 

0001 fiir Personen, die multiplizieren 
konnen 

1001 fiir Personen, die die Eulersche Zahl 
kennen und multiplizieren konnen 
sowie 

1111 fiir Personen, die die Eulersche Zahl 
kennen und quadrieren konnen. 

Die iibrigen 10 mbglichen Antwortmuster 
sind nicht moglich, sofern die Theorie 
iiber die drei Wissenselemente stimmt und 
die befragten Personen iiber diese Wis- 
senselemente tatsachlich nach dem Alles- 
oder-nichts-Prinzip verfiigen. 



In diesem Beispiel kann man von einer 
hierarchischen Wissensstruktur sprechen, 
auch wenn die Hierarchie nur partiell 
besteht. Die folgende Abbildung zeigt die 



Struktur der Wissenszustande, die sich auf 
4 Ebenen anordnen lassen. Die Person 
einer hoheren Ebene hat stets ‘me hr 
Wissen’ als die einer tieferen Ebene. 



mi 




oooo 



Abbildung 71: Eine hierarchische Wissensstruktur 

Ein anderer Anwendungsbereich, wo man 
nur bestimmte Muster von Antworten 
erwartet, stellt die Erfassung von Typen 
dar. Unterscheidet man eine begrenzte 
Anzahl von Personentypen und erwartet 
man von jedem Typ bestimmte (im Ex- 
tremfall ein bestimmtes) Antwortmuster, 
so sind auch hier detemiinistische Per- 
sonenklassen iiber ‘zulassige’ und ‘unzu- 
lassige’ Anwortmuster definiert. 



Beispiel 

Ein sehr einfaches Beispiel ist der folgen- 
de, aus vier Items bestehende Fragebogen, 
wobei die Aussagen jeweils mit ‘stimmt:’ 
(= 1) oder ‘stimmt nicht’ (= 0) zu beant- 
worten sind: 

1. Ich brause leicht auf 

2. Ich stehe standig unter Dampf 

3. Ich halte das Leben fiir sinnlos 

4. Ich lab' die Dinge mal auf mich zu- 

kommen. 

Wiirde man auf diesen Fragebogen die 
Lehre der vier Temperamentstypen in pu- 
ristischer Manier anwenden, so sind nur 
vier Antwortmuster zu erwarten, namlich 
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1000 fur die Choleriker 
0100 fur die Sanguiniker 
0010 fur die Melancholiker 
0001 fur die Phlegmatiker. 

Man erwartet also aus der Menge der 
moglichen Antwortpattern, (in diesem Fall 
16, namlich 2 4 ) lediglich vier mogliche 
Antwortmuster. Diese vier Klassen sind 
ungeordnet, denn es gibt keine psycho- 
logisch sinnvolle Dimension, auf der sich 
diese vier Temperamentstypen anordnen 
lieBen. 

Das Auswerten des Tests bei Vorliegen 
einer solchen Typenhypothese ist denkbar 
einfach, denn man braucht lediglich nach- 
zusehen, ob sich auBer den erwarteten 
Antwortpattern noch weitere Antwortmu- 
ster in der Datenmatrix befinden. Legt 
man ein deterministisches Antwortverhal- 
ten zugrunde, so falsifiziert bereits ein un- 
erwartetes Antwortmuster die Hypothese. 

Verfiigt man iiber keine prdexperimentel- 
len Hypothesen beziiglich der moglichen 
Antwortmuster, so bleibt die Moglichkeit, 
in der Testdatenmatrix nachzuschauen, 
welche Muster auftauchen und welche 
nicht. Dieses fuhrt in den meisten Fallen 
jedoch zu keiner sinnvollen Testauswer- 
tung, da in aller Regel mein - Antwortmu- 
ster zu beobachten sind, als sinnvoller- 
weise Klassen anzunehmen sind. 



Literatur 

Die Erfassung von Wissensstrukturen oder 
sog. Verhaltenshierarchien wird zumeist 
im Zusanmienhang mit probabilistischen 
Klassen-Modellen gesehen (Bergan & 
Stone, 1985, Dayton & Macready, 1976, 
Rindskop, 1983), wahrend Hilke et al. 
(1977) auch die Vorteile deterministischer 
Annahmen betonen. Die Erfassung von 
Typen mit Hilfe von Klassen-Modellen 
diskutiert Rost (1995). 



Ubungsaufgabe 








Sie erhalten in einem Wissens-Test mit 5 


Items die folgenden 8 Antwortpattern: 






Items 
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2 3 


4 


5 
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0 0 


0 
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0 


1 0 
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0 
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1 0 
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1 
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1 0 
1 1 
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1 


0 

1 






1 

0 


1 1 
1 0 


1 

0 


1 

1 






1 


1 0 


0 


0 






1 


1 1 


0 


0 




Zeichnen Sie die hierarchische Wissens- 
struktur auf, die diese 8 Pattern mitein- 


ander verbindet. 









3.1.2.2 Die Analyse latenter Klas- 
sen: wahrscheinliche Antwort- 
muster 

Die Analyse latenter Klassen ist die pro- 
babilistische Variante eines Testmodells 
fur den zuvor geschilderten Fall, daB man 
bestimmte Alien von Antwortmustem in 
einem Test oder Fragebogen erwartet. Im 
Unterschied zum vorangehenden Kapitel 
erfolgt hier die einzelne Itemantwort je- 
doch nicht detemiinistisch, sondern nur 
mit einer gewissen Wahrscheinlichkeit. 

Im folgenden soli die Modellgleichimg fur 
dieses allgemeine kategoriale Testmodell 
abgeleitet werden. Dabei wird von relativ 
einfachen, ‘schwachen' Annahmen ausge- 
gangen. 

Die erste Annahme besagt, daB die Lo- 
sungswaln'scheinliclikeit eines Items fiir 
alle Personen in einer Klasse (mit demsel- 
ben kategorialen MeBwert) konstant ist, 
d.h. 
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CD P (x vi = i|e v = g ) = Tc ig , 

wobei Ttjg einen Modellparameter be- 
zeichnet, der genau diese konstante Lo- 
sungswahrscheinlichkeit von Item i in der 
Klasse g ausdriickt. Der Parameter kann 
also nur Werte zwischen 0 und 1 anneh- 
men. Man bezeichnet solche Parameter 
auch als Wahrscheinlichkeitsparameter. 
Die Gegenwahrscheinlichkeit, also die 
Wahrscheinlichkeit, das Item nicht zu 
Ibsen, lautet dann 

(2) p(x vi = 0| 6 V = g) = 1 - Ji ig , 

was zusammengefaBt werden kann zu 

(3) p(x vi = x|e v =g) = 7t j x g (l-7t ig ) 1 x . 

Die zweite Annahme besagt, daB jede 
Person nur einer Klasse angehoren kann, 
d.h. die Klassen sind disjunkt und ex- 
haustiv. Das entspricht der bei alien Test- 
modellen ublichen Annahme, daB jeder 
Person nur ein Wert der Personenvariable 
zugewiesen werden kann. Ebenfalls iiblich 
ist die Annahme, daB die Anzahl der 
Personen mit demselben MeBwert, hier die 
Klassengrofie, unbekannt ist. 

Man fiihrt fiir die Klassengrofie ebenfalls 
einen Wahrscheinlichkeitsparameter, 7t g , 
ein, der die Wahrscheinlichkeit bezeich- 
net, daB eine zufallig ausgewahlte Person 
zur Klasse g gehort: 

Tt g = p (0 V = g). 

Diese KlassengroBen addieren sich auf- 
gmnd der getroffenen Annahme zu Eins : 

G 

(4) 5>g = 1 



Die Anzahl latenter Klassen, G, ist zwar 
eine unbekannte GroBe, sie stellt aber kei- 
nen Modellparameter dar. Das bedeutet, 
daB diese Anzahl nicht direkt geschatzt 
oder berechnet werden kann wie die ande- 
ren Parameter. Sie muB vielmehr indirekt 
iiber eine Kontrolle der Modellgiiltigkeit 
bei unterschiedlichen Klassenanzahlen er- 
mittelt werden (s. Kap. 4 und 5). 

Mit diesen beiden Parametern laBt sich 
bereits die unbedingte Losungswahr- 
scheinlichkeit ausdrucken, was zunachst 
an einem Beispiel verdeutlicht werden 
soli. 



Beispiel 

Es gibt drei verschiedene Automarken, de- 
ren Autos jeweils zu 30% (Marke A), 50% 
(Marke B) und 70% (Marke C) eine helle, 
leuchtende Lackierung aufweisen. D.h. die 
bedingten Wahrscheinlichkeit en fiir eine 
helle Lackierung betragen 0.3, 0.5 und 
0.7. Die drei Marken haben Marktanteile 
von 60%, 20% und 20%. Dies entspricht 
den KlassengroBenparametem TCj = 0.6, 
7t 2 =0.2 = 0.2 und 9 = 0.2. Dann ist die unbe- 
dingte Wahrscheinlichkeit, ein helles Auto 
anzutreffen: 

d.h. 42 von 100 Autos haben eine helle 
Lackierung. 



Die allgemeine Gleichung lautet 
( \ G 

(5) P^Xyj — lj — ^ Ttg Ttjg , 
g = l 

und liiBt sich wie folgt aus den beiden ge- 
nannten Annahmen ableiten. 
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Als vierte und letzte Annahme wird wie- 
derum die lokale stochastische Unabhan- 
gigkeit benotigt (s. Kap. 2.3.3), um 
die bedingten Pattemwahrscheinlichkeiten 
p(x|g) auf die einzelnen Losungswahr- 

scheinlichkeiten zuriickzufiihren : 

(?) p(x|g)=n^(i-^ ig )'' x ', 

i=l 

wobei der Exponent Xj jeweils die i-te 
Komponente des Vektors x bezeichnet. 
Es ergibt sich soniit als Modellgleichung: 

(io) p(x)= X "gll X| - 

g=l i=l 

Dieses Testmodell, das auf Paul Lazars- 
feld (1950) zuriickgeht, wird als latent- 
class Modell bezeichnet und stellt das 
Grundmodell fur alle Testmodelle mit ka- 
tegorialer Personenvariable dar. 



Die dritte Annahme ist die Annahme der 
Itemhomogenitdt, die besagt, dab alle 
Items dieselbe Personenvaiiable messen. 
Daraus folgt namlich, dab sich die unbe- 
dingte Pattemwahrscheinlichkeit genauso 
berechnen labt, wie die unbedingte Ld- 
sungswahrscheinlichkeit, namlich: 

G 

(8) p(x)= X K g P(^|g) - 

g=l 



Datenbeispiel 












Analysiert man die KFT-Daten unter 
der Annahme einer zweikategoriellen 
Personenvaiiable, so ergeben sich die 
folgenden Modellparameter: 




n s 


n lg 


n 2g 


n 3g 


n 4g 




g= 1 


0.54 


0.90 


0.93 


0.75 


0.67 


0.48 


g = 2 


0.46 


0.36 


0.18 


0.17 


0.04 


0.12 


Man sieht an den Modellpai'ametem, 
dab es sich hier um zwei geordnete 
Klassen handelt, d.h. die Personen in 
Klasse 1 haben durchweg hohere Lo- 
sungswaln'scheinlichkeiten als in Klasse 
2. 



Ableitung 

Die unbedingte Losungswahrscheinlich- 
keit p(X vi =1) labt sich als Summe von 
konjugierten Ereignissen 



p(x vi =lA 0 v = g) 



schreiben, wenn man liber alle Werte 
addiert, die das konjugierte Ereignis, also 
hier die latente Variable 0 V , annehmen 
kann: 

Q 

(6) p(x vi =l)=X p(x vi =lA 0 v =g). 

g=l 

Nach der Definition einer bedingten Wahr- 
scheinlichkeit 

(7) p(a|b)=£Aa|) 

labt sich die Wahrscheinlichkeit eines 
konjungierten Ereignisses auf die bedingte 
Wahrscheinlichkeit zuriickfiihren 

p(AaB) = p(B)-p(A|b), 
also auch 

Q 

p(x vi = i) = X p( 0 v = g) ■ p(x V i = i|0 v = g) I 



“ X n g ^ig . 

g=l 
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Obwohl man somit sagen kann, daB die 
Personen der Klasse 1 'fahiger’ sind als die 
der Klasse 2, ergeben sich weitere 
‘qualitative’ Unterschiede: In Klasse 1 ist 
das letzte Item am schwersten , wahrend es 
in Klasse 2 das vierte Item ist. DaB fur 
verschiedene Personengruppen eine unter- 
schiedliche Reihenfolge der Itemschwie- 
rigkeiten gilt, kann es bei quantitativen 
Testmodellen mit uberschneidungsfreien 
Itemfunktionen nicht geben. 

Die Lbs u ngs wall rse lie i n I ie h kei ten in Form 
von Itemfunktionen graphisch darzustellen, 
bewahrt sich immer dann nicht, wenn es 
mein- Items als Klassen gibt. Hier sind 
sog. Itemprofile besser geeignet, bei denen 
auf der Abszisse die Itemnummem und 
auf der Ordinate die Losungswahrschein- 
lichkeiten abgetragen sind: 

p 




Abbildung 72: Die Itemprofile des Datenbeispiels 

Ob die Klassen geordnet und somit die 
Itemfunktionen monoton steigend sind, 
laBt sich auch anhand der Itemprofile 
eindeutig sagen: 

Die Itemprofile sind genau dann 
uberschneidungsfrei, wenn die Item- 
funktionen monoton steigend sind, 
d.h. die Klassen geordnet sind. 



mit einer bestimmten Wahrscheinlichkeit 
angehort. Die Personen werden also nicht 
‘manifest’ klassifiziert, sondern es werden 
nur Wahrscheinlichkeitsaussagen iiber die 
Klassenzugehorigkeit gemacht. Die Wahr- 
scheinlichkeit, mit der eine Person mit 
dem Antwortmuster & der Klasse g an- 
gehort, betragt: 

do P(g|d=^^. 

E "h p(*l h ) 

h=l 



Das heiBt, diese bedingte Klassenwahr- 
scheinlichkeit ist gleich der Wahrschein- 
lichkeit, daB eine Person aus Klasse g 
genau dieses Muster produziert, p(x|g), 
multipliziert mit der KlassengroBe 7t g und 
dividiert durch die Summe dieser Produk- 
te iiber alle Klassen. Der Nenner sorgt 
dafiir, daB die Sunmie dieser sogenannten 
Zuordnungswahrscheinlichkeiten stets 
Eins ergibt: 

G 

(12) Ip(g|x) = U 

g=l 

denn einer Klasse muB ja jede Person 
angehoren. 



Der Satz von Bayes 



Gleichung (11) druckt nichts anderes aus 
als eine Vertauschung dessen, was vor und 
hinter dem Bedingungsstrich einer beding- 
ten Wahrscheinlichkeit steht, namlich hier 
g und x . Dies laBt sich allein mit Hilfe der 
Definition einer bedingten Wahrschein- 
lichkeit ableiten (s. Gleichung 7), welche 
auf diesen Fall bezogen lautet: 



P(g|x) 



p(gAx) 

p(x) 



Aus den vier Modellannahmen laBt sich 
ableiten, daB jede Person jeder Klasse nur 
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Die Wahrscheinlichkeit des Eintretens des 
Ereignisses 

g: ‘die Person gehort Klasse g an’ 
unter der Bedingung des Ereignisses 

& : ‘die Person produziert Antwort- 
muster x’ 

ist gleich der Wahrscheinlichkeit des kom- 
binierten Ereignisses, p(g ax), dividiert 
durch die Wahrscheinlichkeit der Bedin- 
gung, p (x). Eine Umstellung ergibt: 

p(gAx) = p(g|x)p(x). 

aberauch p(g a x) = p(x|g) p(g) • 



Gleichsetzen der beider Gleichungen und 
Auflosen nach der gewiinschten GroBe er- 
gibt 



p(g|x) 



p(*|g)p(g) 

p(x) 



Diese Gleichung stellt eine Anwendung 
des Theorems von Bayes dar. Wird p(g) 
durch Kg ersetzt und wird fur p(x) der 
entsprechende Term aus Gleichung (8) 
eingesetzt, so ergibt sich Gleichung (11). 



Das Ziel einer Testvorgabe besteht dai'in, 
ftir jede Person mit moglichst grofier 
Wahrscheinlichkeit angeben zu konnen, 
welcher Kategorie der Personenvaiiable, 
also welcher Klasse sie angehort. Mit 
Hilfe von Gleichung (11) konnen diese 
Wahrscheinlichkeiten anhand der Modell- 
parameter bestimmt werden. 

Mochte man die Personen dann tatsachlich 
einer der Klassen zuordnen, so wird jede 
Person deijenigen Klasse zugeordnet, der 
sie am wahrscheinlichsten angehort. Die 
Klassenzugehorigkeit wird also durch das 
Maximum der Zuordnungswahrscheinlich- 
keiten definiert: 



(13) t(x v ) = maXg (p(g|x v )) • 

Die durchschnitthche Hohe dieser Maxima 
t(x v ) iiber alle Personen: 

N 

I t(x v ) 

(14) T = , 

N 

oder auch nur iiber die Personen einer 
Klasse: 

I T(x v ) 

T — vg g 



kann dabei - ahnlich wie ein Reliabilitats- 
maB - als MaB fur die MeBgenauigkeit des 
Tests interpretiert werden. T gibt die 
‘Treffsicherheit’ an, mit der die wahre 
Klassenzugehorigkeit der getesteten Perso- 
nen auch tatsachlich ermittelt wird. 



Datenbeispiel 

Irn Datenbeispiel ergeben sich anhand 
der bereits aufgefiihrten bedingten Lo- 
sungswaln'scheinlichkeiten die folgenden 
Zuordnungswahrscheinlichkeiten fiir alle 
Antwortmuster mit dem Score r = 2. 



n (x) 


Pattern 


p(g - 2|x) 


1 


000 1 1 


.77 


2 


00101 


.91 


1 


00110 


.61 


1 


0 1001 


.70 


2 


0 10 10 


.74 


3 


0 1100 


.53 


7 


1000 1 


.91 


2 


10010 


.60 


6 


10 100 


.82 


21 


11000 


.51 



In der Tabelle sind die Patternhaufig- 
keiten n(x) und die Zuordnungswahr- 
scheinlichkeiten zu Klasse 2 aufgefiihrt. 
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Es zeigt sich, daB alle Pattern mit Score 
2 der zweiten Klasse, also der Klasse mit 
den niedrigeren Losu ngs wall rse hcinlieh 
keiten angehoren. Allerdings gehen die 
Zuordnungswahrscheinlichkeiten bis an 
die 50%-Grenze heran, z.B. bei dem 
Pattern x - (1 1000). 

Der Grand liegt bei diesem Pattern 
darin, daB diese Personen das 1. und 2. 
Item gelost haben und diese beiden 
Items gerade in Klasse 1 eine extrem 
hohe Ldsu ngs wall rsehc inliehkeit haben. 
Personen, die zwei andere Items gelost 
haben, gehoren sc hr viel eindeutiger zu 
Klasse 2. 



Die Likelihoodfunktion der latent-class 
Analyse laBt sich nicht in ahnlicher Weise 
vereinfachen, wie dies beirn Rasch-Modell 
der Fall ist. Analog zu Gleichung (9) in 
Kapitel 3. 1.1. 2.2 geht man vom Produkt 
der Pa t te rn wa h rse h c i n I i e h ke i te n aus 

N 

(16) L = f]p(x v ), 

V— 1 

das sich als Produkt aller moglichen und 
un terschiedlichen Pattern umsehrciben 
laBt: 

(17) L,np(xf a . 

X 



Durch diese Ergebnisse wird deutlich, daB 
bei der latent-class Analyse nicht das Prin- 
zip gilt, daB die Anzahl der gelosten Auf- 
gaben alles iiber die Personenfahigkeit 
aussagt, wie es beirn Rasch-Modell der 
Fall ist. Vielmehr hangt der MeBwert, d.h. 
die Klassenzugehorigkeit, davon ab, wel- 
che Items gelost werden. 

Die mittleren Zuordnungswahrscheinlich- 
keiten, also die Treffsicherheiten fur die 
beiden Klassen betragen in diesem Bei- 
spiel 

T, - 0.96 und T 2 - 0.89, 

was als relativ hoch angesehen werden 
kann. Das bedeutet, die Personen dieser 
Stichprobe werden mit einer Sicherheit 
von 96% der ersten Klasse und mit einer 
Sicherheit von 89% der zweiten Klasse 
zugeordnet. Die geringere Treffsicherheit 
fur die zweite Klasse ist sicherlich auf den 
zuvor interpretierten Sachverhalt zu- 
ruekzufulircn, daB Personen mit geringem 
Score gerade die in Klasse 1 leichten 
Items losen. 



Zu beachten ist hier, daB die Wahrschein- 
lichkeiten von Antwortpattern, die nicht in 
der Datenmatrix enthalten sind, auch nicht 
die Likelihood beeinflussen, da sie den 
Exponent en n(x) = 0 haben (und a 0 = 1 
ist). 



Setzt man die unbedingte Patternwahr- 
scheinlichkeit (10) ein, so erhalt man die 
Likelihoodfunktion 



(is) L=n 



X ^gll ^ig 0 ^ig) 



1-Xi 



\ n (i) 



v gll ,v Ig' 

g=l 1=1 



die - wie gesagt - nicht weiter vereinfacht 
werden kann. Die Pattemhaufigkeiten 
n(x) sind jene Statistiken der Datenma- 
trix, die man fur die Parameterschatzung 
und Modellgeltungstests benotigt. Es 
findet somit irn Vorfeld der Modellan- 
wendung so gut wie keine Datenaggre- 
gation statt (s.o.), d.h. die Analyse latenter 
Klassen arbeitet mit der gesamten, in den 
Daten enthaltenen Information. 



Daraus ergeben sich jedoch auch gewisse 
Begrenzungen hinsichtlich der Item- und 
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Kategorienanzahl sowie die Notwendig- 
keit g rd Be re r Personenstichproben als sie 
z.B. fiir Analysen mit deni Rasch-Modell 
erforderlich sind. 



Literatur 

Die latent-class Analyse ist ausfiihrlich 
von Lazarsfeld und Henry (1968), 
Formann (1984) und McCutcheon (1987) 
behandelt worden. Einen Uberblick iiber 
spezielle Entwicklungen geben Lange- 
heine (1984, 1988), Langeheine und Rost 
(1993) und Rost & StrauB (1992). Anwen- 
dungsbeispiele finden sich in Formann et 
al. (1980) und Rost & Langeheine (1996). 



Ubungsaufgaben 

1. Welches Antwortmuster hat die groBte 
Wahrscheinlichkeit, von Personen der 
ersten bzw. zweiten Klasse produziert 
zu werden? 

2. Mit welcher Wahrscheinlichkeit wird 
eine Person, die das erste Item gelost 
hat, der zweiten Klasse zugeordnet? 

3. In welchem Fall gehort man mit 
g rd Be re r Walii'scheinlichkeit zur Klasse 
der ‘Konner’ (Klasse 1 im Datenbei- 
spiel): wenn man die beiden leichtesten 
oder die beiden schwersten Items lost? 

4. Berechnen Sie mit WINMIRA die 3- 
Klassenlosung. 

- Handelt es sich auch hier um geord- 
nete Klassen? 

- Wie hoch sind die Treffsicherheiten 
fiir die 3 Klassen? 

- Welches sind die wahrscheinlichsten 
Antwortmuster in den drei Klassen? 



3.1.2.3 Das Fixieren und Gleich- 
setzen von Parametern 

Das Modell der latent-class Analyse, so 
wie es im vorangegangenen Kapitel be- 
schrieben wurde, ist seln - allgemein und 
wenig restriktiv. Wall rend dies zunachst 
eine positive Modelleigenschaft zu sein 
scheint, hat sie jedoch die negative Kehr- 
seite, daB das Modell seln - viele Parameter 
umfaBt und letztlich vielleicht auch ‘zu 
flexibeE ist. Mit ‘zu flexibel’ ist gemeint, 
daB das Modell, wenn man nur ausrei- 
chend viele Klassen annimmt, auf jeden 
beliebigen Datensatz paBt und damit 
keinen Erklamngswert mehr besitzt. 

AuBer der Annahme iiber die Anzahl la- 
tenter Klassen flieBen in die Anwendung 
dieses Testmodells keinerlei weitere An- 
nahmen iiber die Hohe der Modellparame- 
ter ein. D.h., welcher Art die latenten 
Klassen sind, die man erwartet, wird im 
allgemeinen Fall nicht weiter spezifiziert. 

Aus diesen Uberlegungen ergibt sich die 
Idee, mit Hilfe von sogenannten Para- 
meterrestriktionen spezielle praexperimen- 
telle Annahmen in die Datenauswertung 
eingehen zu lassen. Als Parameterrestrik- 
tion bezeichnet man eine MaBnahme, die 
bewirkt, daB ein Parameter gar nicht mehr 
zu schatzen ist bzw. in seinem Wertebe- 
reich wesentlich eingesclirankt ist. 

Man unterscheidet verschiedene Alien von 
Parameterrestriktionen, namlich 

1. das Fixieren von Parametern auf einen 
bestimmten Wert, d.h. das Einsetzen 
eines konkreten Zahlenwertes an die 
Stelle des Modellparameters, 

2. das Gleichsetzen von mindestens zwei 
Parametern, d.h. die Bedingung, daB 
die Parameterschatzungen fiir zwei 
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oder mehr, vorher bestimmte Parameter 
identisch sein sollen, und 

3. Ordnungsrestriktionen, d.h. die Vor- 
schrift, daB ein Parameter groBer (oder 
kleiner) zu sein hat als ein best i mm ter 
anderer. 

Alle drei Arten von Parameterrestriktionen 
lassen sich auf die Modellparameter des 
latent-class Modells anwenden. Dadurch 
wild es moglich, sehr unterschiedliche 
praexperimentelle Annahmen iiber die 
latenten Klassen zum Gegenstand einer 
empirischen Ubeipmfung zu machen. 

Durch Fixierung der Klassengrofien- 
parameter n lassen sich Klassen be- 
stimmter GroBe erzwingen. So kann man 
bei einer Zweiklassenlosung beide Klas- 
sengroBenparameter auf jeweils 0.5 
fixieren und bewirkt somit, daB die opti- 
male 50%-Aufteilung anhand der gegebe- 
nen Itemantworten ermittelt wird. 

Das derart restringierte latent-class Modell 
bestimmt diejenige Zweiteilung der 
Stichprobe, in der die beiden Gruppen 
mbglichst heterogen zueinander sind, bei- 
de Gruppen aber gleich groB bleiben. 
Damit ist dieses Verfahren wesentlich 
voraussetzungsarmer als z.B. der oft ver- 
wendete Mediansplit, bei dem die Stich- 
probe am Median der Summenscore- 
verteilung in zwei Halften geteilt wird. 
With rend der Mediansplit voraussetzt, daB 
dem gesamten Testverhalten eine eindi- 
mensionale Variable zugrunde liegt, er- 
laubt die Einteilung in zwei Klassen mit 
fixierten KlassengroBen auch qualitative 
Unterschiede zwischen den Personen bei- 
der Klassen. 



Im Datenbeispiel ergeben sich fur zwei 
entsprechend fixierte Klassen die folgen- 
den Modellparameter: 



Datenbeispiel 



Klasse 1 
(50%) 


0.90 


0.94 


0.76 


0.68 


0.49 


Klasse 2 
(50%) 


0.38 


0.20 


0.17 


0.05 


0.12 



Im Vergleich zur u nrestringierten Lo- 
sung, bei der die KlassengroBen auch 
schon relativ dicht bei 0.5 liegen (s.o.), 
ergibt sich ein leichter Anstieg der 
bedingten Antwortwahrscheinlichkeiten 
in beiden Klassen. Das liegt damn, daB 
die Klasse der 'Kbnner' im Vergleich zu 
vorher kleiner wird, wahrend die Klasse 
der ‘Nicht-Konner groBer wird. 

Ebenso lassen sich die bedingten Ant- 
wortwahrscheinlichkeiten 7tjg auf be- 
stimmte praexperimentell erwartete Werte 
fixieren. Erwartet man z.B. bei einem Lei- 
stungstest, daB es eine Klasse von Per- 
sonen gibt, die alle Items mit einer 10%- 
igen Irrtumswahrscheinlichkeit losen (vgl. 
Kap. 3. 1.1. 1.2.), so kann man fur eine 
Klasse alle bedingten Antwortwahrschein- 
lichkeiten auf 0.9 fixieren 



Datenbeispiel 

Fur das gegebene Datenbeispiel fiihrt das 
zu folgenden Resultaten: 



Klasse 1 
(33%) 


0.90 


0.90 


0.90 


0.90 


0.90 


Klasse 2 
(67%) 


0.53 


0.40 


0.28 


0.12 


0.14 



Da die KlassengroBen in diesem Fall na- 
turlich nicht mein - fixiert sein diirfen, 
ergibt sich, daB die Klasse der ‘Konner 
mit 10% Irrtum’ in der untersuchten 
Stichprobe 33% der Personen umfaBt. 
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In entsprechender Weise laBt sich auch 
eine Klasse spezifizieren, fur die erwartet 
wil'd, daB diese Personen die richtige Lo- 
sung lediglich erraten (vorausgesetzt man 
kennt die Ratewahrscheinlichkeit aufgmnd 
des verwendeten Antwortformates). 

Wahrend es in der Praxis oft schwierig ist, 
praexperimentell bestimmte Parameter 
vorauszusagen und sie auf diesen Wert zu 
fixieren, ist das Mittel der Gleichsetzung 
von Parametern sehr viel universeller 
einsetzbar. So konnen die Antwortwahr- 
scheinlichkeiten zwischen den Klassen 
gleichgesetzt werden, d.h. man erwai'tet, 
daB in verschiedenen Klassen die Ant- 
wortwaln'scheinlichkeiten beziiglich be- 
stimmter Items gleich sind. Dies kann z.B. 
dann sinnvoll sein, wenn man zwei Klas- 
sen unterscheiden mochte, die sich nur be- 
ziiglich bestimmter Items unterscheiden, 
beziiglich anderer Items aber identische 
Antworttendenzen haben. 

Auch gibt es eine Vielzahl von Hypothe- 
sen, die sich in einer Gleichsetzung von 
Parametern innerhalb von Klassen reali- 
sieren lassen, z.B. wenn praexperimentell 
erwartet wil'd, daB bestimmte Items auf- 
grund ihrer Struktur die gleichen Losungs- 
waln'scheinlichkeiten haben muBten, man 
diese aber nicht kennt. 

Die wichtigste Anwendung von Gleich- 
heitsrestriktionen besteht darin, daB sich 
alle sogenannten Antwortfehlermodelle mit 
einer stufenfbrmigen Itemfunktion, die in 
Kapitel 3. 1.1. 1.2 behandelt wurden, als 
entsprechend restringierte latent-class Mo- 
delle rechnen lassen. Da sich in solchen 
Modellen die Personen, die zwischen zwei 
Sprungstellen liegen, nicht in ihren Lo- 
sungswahi'scheinlichkeiten unterscheiden, 
konnen sie in latenten Klassen zusam- 
mengefaBt werden. 



Man benotigt zur Berechnung von 
Antwortfehlermodellen stets eine Klasse 
me hr als es Items gibt, und man muB die 
Losungswahrscheinlichkeiten zwischen 
bestimmten Klassen gleichsetzen. 

Hierfiir muB die Reihenfolge der Items 
entlang des Kontinuums bekannt sein, die 
sich aber im Normalfall einfach an den 
Losungshaufigkeiten ablesen laBt. In dem 
Datenbeispiel ist das die Reihenfolge 1-2- 
3-4-5 nach aufsteigender Schwierigkeit. 

Dann miissen die Losungswahrscheinlich- 
keiten folgendermaBen gleichgesetzt wer- 
den: 

fur Item 1 in Klasse 2 bis 6 

fur Item 2 in Klasse 1 bis 2 und 3 bis 6 

fur Item 3 in Klasse 1 bis 3 und 4 bis 6 

fur Item 4 in Klasse 1 bis 4 und 5 bis 6 und 

fur Item 5 in Klasse 1 bis 5. 

Es ergibt sich das folgende Bild der stu- 
fenformigen Itemfunktionen. Die Parame- 
terwerte wurden bereits in Kapitel 
3. 1.1. 1.2 genannt. 



P(X=1) 




Abbildung 73: Die Itemfunktionen des Antwort- 
fehlermodells der KFT-Daten 



Dariiber hinaus lassen sich auch die Lo- 
sungswahrscheinlichkeiten zwischen den 
Items gleichsetzen, was dazu fiihrt, daB 
man nur noch zwei Losungswahrschein- 
lichkeiten zu schatzen hat, namlich die 
Rate- und die Irrtumswahrscheinlichkeit, 
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die bei alien Items in alien Klassen gleich 
ist. Hinzu kommen natlirlich die 6 
Klassengrobenparameter. 



Datenbeisj 

Es ergibt s 
keit von p 
scheinlichk 
sungswahrs 
alle Items 
groben lai 
gender ‘Fa! 

Klasse 


liel 

;ich eine Ratewahrscheinlich- 
= 0.12 und eine Irrtumswahr- 
:eit von p = 0.11 (d.h. eine Lo- 
cheinlichkeit von p = 0.89) fiir 
. Die geschatzten Klassen- 
tten (geordnet nach aufstei- 
tigkeit’): 

1 2 3 4 5 6 


n g 


.31 .09 .13 .10 .13 .23 



Parametergleichsetzungen ini Rahmen der 
latent-class Analyse ermoglichen es, eine 
Vielzahl von quantitativen Testmodellen 
mit stufenformigen Itemfunktionen darzu- 
stellen und auch praktisch zu berechnen. 

Ordnungsrestriktionen setzt man dann ein, 
wenn man erzwingen mochte, dab die 
Parameter in einer gewissen Richtung 
voneinander abweichen. Dies ist z.B. dann 
der Fall, wenn man geordnete Klassen 
erwartet, d.h. Klassen, die sich in eine 
Rangreihe bringen lassen, so dab alle Lo- 
sungswalirscheinlichkeiten einer hoheren 
Klasse grober sind als die einer niedri- 
geren Klasse (s.o.). 

Oft ergeben sich geordnete Klassen - wie 
in unserem Datenbeispiel - aline jegliche 
Restriktion, so dab man keine Ordnungs- 
restriktionen benotigt. Mochte man jedoch 
bei Vorliegen einzelner Abweichungen 
von der Ordnung priifen, ob ein Modell 
mit geordneten Klassen trotzdem auf die 
Daten pabt, so mub man die Parameter 
nochmals mit einer Ordnungsrestriktion 
schatzen. Modellvergleiche anhand der 



Likelihood der Daten (vgl. Kap 5.1) geben 
dann Aufschlub, ob die Annahme geord- 
neter Klassen gerechtfertigt ist. 

In aller Regel wird dies dazu fiiliren, dab 
bei den Items und Klassen, bei denen die 
geforderte Ordnung verletzt ist (ein Item 
in einer hoheren Klasse schwerer ist als in 
einer niedrigeren Klasse), die Parameter 
auf einem ‘mittleren’ Wert festgehalten 
werden. Letztlich resultiert also aus einer 
Ordnungsrestriktion eine Gleichheitsre- 
striktion, was die folgende Abbildung 
verdeutlichen soil. 





Abbildung 74: Die Antwortprofile von drei Items 
ohne Ordnungsrestriktion (obenj und mit Ord- 
nungsrestriktion (unten) 

Ordnungsrestriktionen fiiliren nur dann zu 
einer wirklichen Restriktion des Testmo- 
dells, und somit zu einer schlechteren Mo- 
dellanpassung, wenn die Ordnung tatsach- 
hch in einzelnen Klassen bei einzelnen 
Items verletzt ist. In diesem Fall spart man 
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durch die Ordnungsrestriktion so viele 
Parameter wie es Paare von gleichge- 
setzten Antwortwahr'scheinlichkeiten gibt. 

Neben der soeben dargestellten Ordnung 
der Klassen beziiglich aller Items kann 
man auch dieselbe Ordnung der Items in 
alien Klassen erwarten. Das bedeutet, dab 
die Items in jeder Klasse dieselbe Rang- 
ordnung iln'er Antwortwahrscheinlichkei- 
ten aufweisen: Ein Item i, das in einer 
Klasse leichter ist als ein Item j, muB auch 
in jeder anderen Klasse leichter sein als 
Item j. 

Graphisch bedeutet dies, daB sich die 
Items so anordnen lassen, daB die Item- 
profile in den latenten Klassen monoton 
ansteigend sind. 





A bbildung 75: Die Itemprofile von geordneten 
Items (oben) und geordneten Klassen (unten) 



Abbildung 75 zeigt, daB die Items ge- 
ordnet sein konnen, ohne daB die Klassen 
geordnet sind (oberes Bild) und, daB die 
Klassen geordnet sein konnen, ohne daB es 
die Items sind (unteres Bild). Es handelt 
sich also uni zwei unabhangige Ord- 
nungsbedingungen oder Monotoniebedin- 
gungen. 

Tatsachlich sind es dieselben beiden Mo- 
notoniebedingungen, die auch bei einer 
Mokken-Analyse erfiillt sein miissen (s. 
Kapitel 3. 1.1. 2.4). 

Gibt es so viele latente Klassen wie Per- 
sonen getestet wurden, d.h. bildet jede 
getestete Person ihre eigene latente Klasse, 
so sind die beiden Modelle, die Mokken- 
Skala und das latent-class Modell mit 
geordneten Items und Klassen, identisch. 

Der Unterschied zwischen beiden Model- 
len besteht darin, daB bei der Mokken- 
Analyse im Prinzip unendlich viele Aus- 
prdgungen der latenten Variable auftreten 
konnen, wahrend die Anzahl latenter 
Klassen beschrankt und normalerweise 
relativ klein ist. 

Praktisch wil'd man jedoch feststellen, daB 
eine Gmppierung der Personen in Klassen 
mit ahnlichen Eigenschaftsauspragungen 
keine sein' viel schlechtere Modellgeltung 
hat. Hat ein Test monoton steigende und 
iiberschneidungsfreie Itemcharakteristiken 
im Sinne der Mokken-Skala (s. Abb. 76, 
oben), so wil'd eine latent-class Analyse 
mit hinreichend vielen latenten Klassen 
Parameterwerte aufweisen, die die dop- 
pelte Monotoniebedingung erfiillen, d.h. 
deren Klassen und deren Items geordnet 
sind (s. Abb. 76, unten). 
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F 





A bbildung 76: Monotone, uberschneidungsfreie 
Itemfunktionen ergeben geordnete Klassen und 
Items 

In Abbildung 76 sind die Itemprofile von 
drei latenten Klassen eingezeichnet, die an 
drei Punkten der latenten Dimension einer 
Mokken-Skala lokalisiert sind (zum 
Konzept lokalisierter Klassen vgl. das 
nachste Unterkapitel). Somit bietet die 
latent-class Analyse mit geordneten Klas- 
sen und Items eine gute Moglichkeit zu 
priifen, ob ein Test Mokken-skalierbar ist. 

Auch lassen sich beide Monotoniebedin- 
gungen einzeln iiberpriifen: Sind die la- 
tenten Klassen geordnet, so kann man 
schlieBen, daB die Itemcharakeristiken 
monoton steigend sind. Sind die Items in 
alien Klassen geordnet, so kann man 
schlieBen, daB die Itemcharakteristiken 
iiberschneidungsfrei sind. Vorausgesetzt 
man laBt hinreichend viele latente Klassen 
zu, so laBt sich auf diesem Weg unter- 
suchen, ob es fiir einen Test ein quanti- 
tatives Testmodell mit monotonen, iiber- 
schneidungsfreien Itemfunktionen gibt. 



Literatur 

Die Moglichkeiten von Parameterfixierun- 
gen und Gleichheitsrestriktionen ergaben 
sich durch die Entwicklung der Parame- 
terschatzmethode von Goodman (1974a, 
b). Der Einsatz derart restringierter Mo- 
delle fiir das sog. mastery testing wird von 
Macready & Dayton (1977, 1980) dis- 
kutiert. Dayton & Macready (1980) be- 
riicksichtigen bei Antwortfehlemiodellen 
eine Klasse unskalierbarer Personen. 
Clogg & Goodman (1985) benutzen Para- 
meterrestriktionen, um eine latent-class, 
Analyse simultan in mehreren Personen- 
stichproben durchzufiihren. Croon (1990) 
und Formann (1992) beschreiben unter- 
schiedliche Ansatze fiir Ordnungsrestrik- 
tionen irn latent-class Modell, und Crooni 
(1991) sowie de Gruijter (1994) gehen auf 
die Beziehungen zwischen der Mokken- 
Analyse und der latent-class Analyse ein. 



Ubungsaufgabe 

Die geschatzten Modellparameter des 
unrestringierten 3-Klassen Modells lau- 
ten: 



Klasse 1 
(39%) 


.26 


.10 


.16 


.04 


.10 


Klasse 2 
(29%) 


.92 


.84 


.49 


.12 


.28 


Klasse 3 
(32%) 


.87 


.94 


.84 


1.00 


.59 



Die 5 Items des KFT bilden nach diesen 
Ergebnissen keine Mokken-Skala. Bei 
welchen Items und in welchen Klassen 
ist welche Monotoniebedingung ver- 
letzt? 
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3.1.2.4 Lokalisierte Klassen: 
Punkte auf einem Kontinuum 

Die im vorangegangenen Kapitel darge- 
stellte Aquivalenz zwischen der Mokken- 
Analyse und der Klassen-Analyse mit 
einer doppelten Ordnungsrestriktion wur- 
de mit Hilfe des Gedankenmodells ver- 
deutlicht, dab die Eigenschaftsauspragun- 
gen der Personen nur eine begrenzte 
Anzahl von Werten annehmen konnen. 
Die Klassen in denen die Personen mit 
gleicher Eigenschaftsauspragung zusam- 
men gefabt werden, sind an deijenigen 
Stelle des latenten Kontinuums angesie- 
delt (lokalisiert oder ‘verortet’), die der 
Eigenschaftsauspragung der Personen in 
dieser Klasse entspricht. Das ist das Kon- 
zept lokalisierter Klassen. 

Mittels einer solchen Lokalisation der 
Klassen auf einem Kontinuum kann man 
die Antwortwahrscheinlichkeiten in den 
latenten Klassen durch kontinuierliche, 
d.h. auf das gesamte Kontinuum bezogene 
Itemfunktionen definieren. Aus dem 
Graph der Itemfunktionen ergeben sich 
die Antwortwahrscheinlichkeiten inner- 
halb der Klassen durch die Schnittpunkte 
der Itemfunktionen mit senkrechten Linien 
iiber der jeweiligen Klassenlokation (s. 
Abb. 77). 

Testmodelle mit lokalisierten Klassen ge- 
hen also davon aus, dab es zwar eine 
kontinuierliche Personenvai'iable gibt, dab 
die getesteten Personen aber nicht kon- 
tinuierlich iiber das gesamte Spektrum 
verteilt sind, sondem sich an bestimmten 
Verdichtungspunkten, den Klassenlokali- 
sationen haufen. Es gibt nur eine begrenz- 
te Anzahl von Auspragungen einer ‘eigent- 
lich’ kontinuierlichen Personenvariable. 




Abbildung 77: Die Itemprofile von drei 
lokalisierten Klassen (unten) auf einem Kontinuum 
mit 3 Itemfunktionen des Rasch-Modells (oben) 

Solche Testmodelle sind gewissermaben 
Zwitter aus Testmodellen mit kontinuier- 
licher und mit kategorialer Personenva- 
riable. Sie verdeutlichen die Beziehung 
dieser beiden gmndlegenden Allen von 
Testmodellen zueinander. Zwei, zunachst 
pai'adox erscheinende Beziehungen lassen 
sich ablesen. 

Ein Paradoxon? 

Erstens scheint ein Testmodell mit lo- 
kalisierten Klassen insofern ein Spezialfall 
des zugehorigen kontinuierlichen Test- 
modells zu sein, als es aus der Vielzahl 
der moglichen Auspragungen der latenten 
Personenvai'iable nur eine sehr begrenzte 
Anzahl von Auspragungen, namlich so 
viele wie es Klassen gibt, zulabt. 

Zweitens scheint ein Testmodell mit 
monoton ansteigenden Itemfunktionen 
gegen liber der unrestringierten Klassen- 
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analyse ein sc hr restriktiver Spezialfall zu 
sein, bei deni die klassenspezifischen 
Antwortwahrscheinlichkeiten auf be- 
stimnite, durch die Itemfunktionen vor- 
gegebene Weite fixiert sein miissen. 

Diese beiden paradox erscheinenden Ein- 
sichten lassen sich auf einen gemeinsamen 
Nenner bringen, wenn man der Frage 
nachgeht, ob eine begrenzte Anzahl lokali- 
sierter Klassen die Daten genauso gut 
erklaren kann, wie das zugmndeliegende 
quantitative Testmodell. Um die Antwort 
vorwegzunchnien: Es reicht eine relativ 
kleine Anzahl von lokalisierten Klassen 
aus. Mit dieser vorweggenommenen Ant- 
wort ergibt sich die 'Auflbsung' des Para- 
doxon: 

Quantitative Testmodelle sind ein 
Spezialfall von latent-class Modellen, 
wenn man eine bestimmte Klassen- 
anzahl wdhlt und die bedingten 
Antwortwahrscheinlichkeiten in ge- 
eigneter Weise restringiert. 

Diese Restriktionen sind aber weder durch 
Parameterfixierungen noch durch Gleich- 
setzungen oder lediglich Ordnungsre- 
striktionen (s.o. Kap. 3. 1.2.3) zu erwirken. 
Die Art der Restriktionen hangt vielmehr 
vom jeweiligen Typ der Itemfunktion ab. 
Tm folgenden wird das Modell lokalisierter 
Klassen fur die Itemfunktionen des Rasch- 
Modells dargestellt. 

Hierfur wird das Modell der Klassen- 
Analyse zunachst so abgeandert, dab die 
Wahrscheinlichkeitsparameter 7t ig in lo- 
gistische Parameter transformiert werden. 
Man nennt das eine Reparametrisierung, 
was bedeutet, dab man die Parameter eines 
Modells durch eine andere Sorte von 
Parametern austauscht, ohne dab sich an 
den Annahmen des Modells und sornit an 



seiner Giiltigkeit fur empirische Daten- 
satze irgendetwas andert. Im vorliegenden 
Fall wird eine Logit-Transformation der 
Antwortwahrscheinlichkeiten 7t lg vorge- 
nommen (vgl. Kap. 3.1. 1.2.2), d.h. 

ttig 

(1) a ig = log- 1 _ ■ 

1 ig 

und damit 

exp(a ig ) 
ig l + exp(a ig ) 

Sie bewirkt, dab die neuen Parameter a jg 
nicht mehr auf das Wahrscheinlichkeitsin- 
tervall von 0 bis 1 beschrankt sind, son- 
dem zwischen -« und +»o liegen. Fer- 
nerhin sind sie zentriert, d.h. fur a | „=0 
ergibt sich eine Antwortwahrschein- 
lichkeit von 0.5 (s.a. Kap. 3. 1.1. 2.2, Abb. 
43 und 44). Audi ist diese Transformation 
symmetrisch, so dab die Gegenwahr- 
scheinlichkeit zur Lbsungswahrscheinlich- 
keit, also l-7tj g , dem negativen Logit- 
Parameter, -a |(I , entspricht: 

l-7t ig 

(2) log - a ; g . 

mg 

Somit labt sich die Modellgleichung der 
Klassenanalyse statt 

Q 

(3) p(x vi )=2 rt ig (l — ) 

g=l 

folgendermaben schreiben 

(4) p(x vi =l)=£jc g 

g=i 

/ l G 

und p(X vi =0J= ^ 7t g 

g=l 
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was sich zusammenfassen I a lit zu 




exp(x vi g ig ) 
g l + exp(a ig ) 



Wie beim Rasch-Modell (s. Kap. 

3. 1.1. 2. 2) sorgt der Koeffizient x vi im 
Exponent dafiir, dab der ganze Zahler fur 
X vi = 0 gleich Eins wird. 



Diese Reparametrisierung des Modells 
wird logistische latent-class Analyse ge- 
nannt. Da die Modellparameter a ig nicht 
mein - (wie die Jt ig Parameter) auf das 0-1- 
Intervall beschrankt sind, sondem zwi- 
schen -°o und +°° liegen, kann man lineare 
Zerlegungen dieser Par - ameter einfiihren, 
ohne dab man Uberschreitungen des 
Wertebereichs zu befiirchten hat (vgl. Kap. 

3.1. 1.2.2). 



Zerlegt man den Logit-Parameter a ig in 
einen Klassenparameter 0 g und einen 
Itemparameter a,, so erhalt man mit 



( 5 ) 



G 



P(X 



,i)=I 

g=l 



exp(x(e g - dj )) 
8 1 +exp(e g -gJ 



ein Modell mit lokalisierten Klassen, des- 
sen Itemfunktionen diejenigen des Rasch- 
Modells sind. Der Parameter 9 g druckt die 
Fahigkeit aller Personen in Klasse g aus, 
und es wird nur eine endliche Anzahl von 
Auspragungen der latenten Dimension 
angenommen, namlich G. 



Was ist der Unterschied zwischen diesem 
Modell mit lokalisierten Klassen und 
eineni ‘richtigen' Rasch-Modell? Formal 
besteht der Unterschied darin, dab im 
Klassen-Modell nur eine bestimmte An- 
zahl von Fahigkeitsauspragungen zuge- 
lassen ist, wahrend beim Rasch-Modell 



jede beliebige reellwertige Fahigkeitsaus- 
pragung theoretisch mbglich ist. Praktisch 
mubten beide Modelle jedoch ineinander 
ubergehen, wenn man nur hinreichend 
viele lokalisierte Klassen zulabt. Es ergibt 
sich die Frage, wie viele lokalisierte Klas- 
sen man braucht, uni die Daten gleich gut 
erklaren zu konnen wie das Rasch-Modell. 

Die Antwort auf diese Frage hangt mit der 
Anzahl unabhangiger Modellparameter 
zusammen, die unter beiden Formalisie- 
rungen zu schatzen sind. Im Fall des 
Rasch-Modells mub man sich dabei auf 
das Modell (16) mit den bedingten Pat- 
temwahrscheinlichkeiten und den Score- 
Parametern beziehen, um das Problem der 
vielen inzidentellen Parameter (die es bei 
Klassen-Modellen nicht gibt) zu umgehen. 
In diesem Modell gibt es neben den k-1 
unabhangigen Itemparametem noch k 
unabhangige Scoreparameter (s. Kap. 

3. 1.1. 2. 2), also insgesamt 2 k-1 Para- 
meter. 

Bei dem Modell lokalisierter Klassen sind 
ebenfalls k-1 Itemparameter zu schatzen, 
da sie auch summennormiert werden miis- 
sen. Hinzu kommen so viele Fahigkeits- 
parameter 0 g wie es Klassen gibt, also G, 
und die Klassengrobenparameter 7t g , von 
denen einer nicht geschatzt zu werden 
braucht, da sie sich insgesamt zu 1 ad- 
dieren. Insgesamt handelt es sich also um 
k + 2 G - 2 Parameter. 

Es labt sich nun zeigen, dab man genau so 
viele lokalisierte Klassen braucht, dab die 
Anzahl unabhangiger Modellparameter 
im Klassen-Modell der Anzahl unabhangi- 
ger Parameter im Rasch-Modell ent- 
spricht. Damit 

2k-l = k + 2G-2 
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wird, mill.) 



sein. Die Anzahl der benotigten Klassen 
entspricht also (k+l)/2, wenn es sich um 
eine ungerade Itemanzahl handelt und 
(k/2)+l, wenn es sich um eine gerade 
Itemanzahl handelt. 



Beispiel 

Hat man einen Test mit 10 Items, so gibt 
es im Rasch-Modell 9 Itemparameter und 
10 Scoreparameter. Wahlt man in diesem 
Fall 5 lokalisierte Klassen, so hat man 
neben den 9 Itemparametern 5 Klas- 
senparameter und 4 K I asse ng rd Be npara- 
meter, also einen Parameter zuwenig. In 
diesem Fall sind 6 lokalisierte Klassen 
notig und ausreichend, um die Daten 
genauso gut zu erklaren wie es das Rasch- 
Modell tut. 



Das Modell lokalisierter Klassen ist 
insofern von theoretischem Interesse, als 
es auf eine mathematisch exakte Weise 
zeigt, dab Quantifizieren ein Spezialfall 
von Klassifizieren ist. Dieser Spezialfall 
beinhaltet eine bestimmte Ail der Restrik- 
tion der klassenspezifischen Losungswahr- 
scheinlichkeiten und erfordert eine be- 
stimmte minimale Klassenanzahl. 

Die Art der Parameterrestriktion bezeich- 
net man als linear logistische Restriktion, 
da sie eine lineare Zerlegung der logistisch 
transformierten Losungswahrscheinlich- 
keiten darstellt. 



Literatur 

Das Konzept lokalisierter Klassen wurde 
bereits von Lazarsfeld & Henry (1968) 
diskutiert. Clogg (1988), Lindsay et al. 
(1991) und Formann (1989) haben die 
Parameterschatzung und die Frage der 
notwendigen Klassenanzahl untersucht. 



Ubungsaufgabe: 

1 Die (erdachten) Itemprofile fur 4 lo- 
kalisierte Klassen sehen folgender- 
m a lien aus: 
p 




12 3 4 5 



j ~ + KM # K1.2 ^ KJ. 3 X — ' a4 | 

Zeichnen sie den moglichen Verlauf 
der Itemfunktionen dieser 5 Items 
und zeichnen Sie die Lokationen der 
4 Klassen ein. 

2. Wieviele lokalisierte Klassen beno- 
tigt man, um fiir einen Test mit 15 
Items das Rasch-Modell zu berech- 
nen? 



Das Modell kann aber auch von 
praktischem Nutzen sein, wenn es z.B. 
darum geht, Annahmen iiber die Ver- 
teilung der Fiihigkeiten zu testen. 
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3.1.3 Das mixed Rasch-Modell: 
klassifizieren und quantifizie- 
ren zugleich 

Nachdem ini vorangegangenen Kapitel 
iiber lokalisierte Klassen gezeigt wurde, 
daB man bestimmte Modelle wahlweise 
als quantitative oder als kategoriale Test- 
modelle verstehen kann, soli in diesem 
Kapitel auf ein Testmodell eingegangen 
werden, das gleichzeitig quantifiziert und 
klassifiziert. 

Die Funktion dieses Testmodells besteht 
darin, die Personen so zu klassifizieren, 
daB innerhalb jeder Klasse eine quan- 
titative Personenvariable gemessen werden 
kann. Es wird also eine quantitative Per- 
sonenvariable gemessen, jedoch wird an- 
genommen, daB dies nicht in der gesamten 
Personenpopulation moglich ist, sondem 
jeweils nur in bestimmten Teilpopula- 
tionen. 



und disjunkt sind, so daB sich die unbe- 
dingte A nt wort wall rse heinliehkeit wieder- 
um durch Summation iiber die Klassen 
und Gewichtung mit einer Klassengrofie 
7tg ergibt: 



(2) p(x v , 







exp(e vg -q ig ) 

1 + exp(o vg - a lg ) 



Man sieht an dieser Gleichung, daB es sich 
bei deni mixed Rasch-Modell um das 
gemeinsame Obermodell von Rasch-Mo- 
dell und Klassenanalyse handelt. 



G 

I *g 



g=l 



exp(9 vg -Gi g ) 
l + exp(9 vg -c ig ) 







g=i 



ex p( a i g ) 
l + exp(a ig ) 




1 



exp(9 v -Qj) 

1 + exp(6 v - Oj ) 



Das ist die Idee des mixed Rasch-Modells, 
welches eine Kombination aus deni Rasch- 
Modell und der Klassenanalyse darstellt. 
Die Annahme, daB innerhalb jeder latenten 
Klasse das Rasch-Modell gilt, fiihrt zu 
folgender klassenspezifischer Antwort- 
wahrscheinlichkeit : 



(i) p(x vi = l|g)= 



exp(e vg -q ig ) 

1 + exp(0 vg - a ig ) 



Die Gleichung besagt, daB fur jedes Item 
die logistische Itemfunktion des Rasch- 
Modells gilt, jedoch wird sie von Para- 
nietern bestimmt, die klassenspezifisch 
sind, d.h. sich von Klasse zu Klasse 
unterscheiden. 

Wie im Modell der Klassenanalyse wird 
angenommen, daB die Klassen exhaustiv 



Abbildung 78: Das mixed Rasch-Modell als 
Synthese von latent-class Analyse und Rasch- 
Modell 

Gibt es nur eine Klasse, d.h. ist G = 1, so 
reduziert sich das ganze Modell auf das 
nomiale Rasch-Modell. Gibt es dagegen 
keine Varianz in den Personenparametem 
0 vg , d.h. sind alle 0 vg =0g, so ist die klas- 
senspezifische Eigenschaftsauspragung 0 g 
nichts anderes als eine Nomiierungskon- 
stante. In diesem Fall resultiert die logi- 
stische Schreibweise des Modells der 
Klassenanalyse (s.o. Kap. 3. 1.2.4, Formel 
(4)) mit a ig = -a ig . 

Die KlassengroBenparameter 7t g sind wie- 
derum Wahrscheinlichkeitsparameter, die 
sich zu 1 addieren, d.h. 
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G 

(3) 2> g = L 
g=l 

Die Itemparameter unterliegen - wie beim 
nomialen Rasch-Modell - einer Normie- 
rungsbedingung, und zwar niiissen die 
Itemparameter innerhalb jeder Klasse 
summennormiert sein, ddr. es gilt 
k 

(4) L°ig = 0 foreleg- 

i=l 

Die Anwendungsbereiche dieses zunachst 
etwas kompliziert aussehenden Modells 
erschlieBen sich auf zweierlei Weise, nam- 
lich wenn man entweder vom normalen 
Rasch-Modell oder von der normalen 
Klassenanalyse ausgeht und sich klar- 
macht, welche Annahnren jeweils ge- 
lockert werden. 

Inr ersten Fall, d.h. beim normalen Rasch- 
Modell wird angenonmren, daB dieselben 
Itemparameter fiir alle Personen in der 
befragten Population gelten, ddr. die 
Itemschwierigkeiten nrussen konstant sein 
fur alle getesteten Personen. Dies ist eine 
sehr restriktive Annahme, die oft dazu 
firhrt, daB das Rasch-Modell fur einen 
Datensatz verworfen werden nruB. Das 
mixed Rasch-Modell trifft nicht diese 
restriktive Annahme konstanter Item- 
schwierigkeiten fur alle Personen, sondem 
erlaubt unterschiedliche Itemschwierig- 
keiten fur verschiedene Personengruppen. 



Beispiel : unterschiedliche Losungs- 
Strategien 

Gibt es fur die Aufgaben eines Lei- 
stungstests, z.B. zunr raumlichen Vor- 
stellungsvermogen, mchrcrc Losungsstra- 
tegien, so nruB angenonmren werden, daB 
auch die Itemschwierigkeiten fur Personen 
unterschiedlich sind, die verschiedene 



Losungsstrategien verwenden. Gibt es inr 
einfachsten Fall zwei verschiedene Lo- 
sungsstrategien und wendet jede Person 
genau eine der beiden Strategien auf alle 
Items an, so ist das raunrliche Vor- 
stellungsvemiogen nur zu messen, indem 
man zwei Gruppen von Personen unter- 
scheidet, fur die unterschiedliche Item- 
parameter gelten. 

In diesem Fall messen zwar alle Items 
dieselbe Fahigkeit, namlich die Fair igkeit 
eben diese Items zu Ibsen. Dennoch kann 
das Rasch-Modell nur innerhalb der 
beiden honrogenen Teilpopulationen gel- 
ten, die jeweils dieselbe Losungsstrategie 
anwenden. 



Geht man dagegen von der normalen 
Klassenanalyse aus, so ist deren restrik- 
tivste Annahme die Fordemng, daB sich 
die Personen innerhalb jeder latenten 
Klasse in ihren Antwortwalrrscheinlich- 
keiten nicht weiter unterscheiden dirrfen. 
Das bedeutet, alle Personen derselben 
Klasse haben fur alle Items dieselben Lo- 
sungs- bzw. Antwortwahrscheinlichkeiten. 

Hier ware es wirnschenswert, daB sich die 
Personen in den latenten Klassen graduell 
unterscheiden dirrfen, d.h. inr Rahnren 
eines klassenspezifischen Antwortprofils 
inr Niveau variieren konnen. 

Beispiel: unterschiedlich pragnante 

Typen 

Ein Personlichkeitsfragebogen soli den ex- 
travertierten Typ vonr introvertierten Typ 
unterscheiden. Jeder Typus zeichnet sich 
durch ein bestinrnrtes Antwortprofil aus, 
d.h. er stinrnrt gewissen Fragen elrer zu 
und lehnt andere elrer ab. Die getesteten 
Personen gehoren aber nicht nur denr 
einen oder anderen Typ an, sondern un- 
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terscheiden sich auch darin, wie ausge- 
pragt ihre intro- bzw. extravertierte Per- 
sonlichkeitsstmktur ist. Ein ausgepragt ex- 
travertierter Typ wird die Items sehr viel 
eher in Richtung Extraversion beantworten 
als ein schwacher ausgepragter Typ. 

In diesem Fall gibt es zwar zwei typen- 
spezifische Profile von Itemschwierig- 
keiten, aber diese bedeuten nicht, dab alle 
Personen einer Klasse dieselben Antwort- 
wahrsehcinliehkeiten hatten. 

Die folgende Abbildung veranschaulicht 
die Idee klassenspezifischer Profile von 
Schwierigkeitsparametem. 




Abbildung 79: Itemprofile flir zwei Klassen 

Die Abbildung zeigt die Profile der 
Itemparameter fur zwei latente Klassen. 
Zu beachten ist hier, dab es sich nicht um 
die Profile der Losungswahrscheinlich- 
keiten handelt, wie bei der normalen 
Klassenanalyse. Die wichtigste Implika- 
tion dieses Unterschieds besteht darin, dab 
es ein solches Profil konstanter Losungs- 
wahrscheinlichkeiten im mixed Rasch- 
Modell nicht gibt - es sei denn im Sinne 
eines mittleren (Durchschnitts-) Profils. 

Die beiden in Abbildung 79 dargestellten 
Profile zeigen vielmehr nur den Profil- 
verlauf der Itemschwierigkeiten. Jede ein- 
zelne Person in der betreffenden Klasse 



kann nach Mabgabe ihres klassenspe- 
zifischen Personenparameters 0 vg eher 
hohe oder eher niedrige Losungswahr- 
scheinlichkeiten bei alien Items haben. An 
den Profilen ist daher nur der Verlciuf aber 
nicht das Niveau zu interpretieren. Wegen 
der Normierungsbedingung (4) ist der Mit- 
telwert aller Itemparameter in einer Klasse 
stets gleich Null. 

Datenbeispiel: Itemparameter 

Die Itemparameter des 2-Klassen 
Modells fiir die KFT-Daten lauten: 

Item 1 2 3 4 5 



Klasse 1 






(37%) 


- 0.14 


- 0.90 + 0.13 - 0.42 + 1.33 


Klasse 2 






(63%) 


- 1.54 


- 0.70 - 0.04 + 1.54 + 0.73 



In der groberen Klasse 2 sind die Items 
mit Ausnahme des letzten Items nach 
aufsteigender Schwierigkeit geordnet. 
Das ist in der ersten Klasse nicht der 
Fall. Hier ist neben dem letzten Item das 
dritte Item am schwierigsten. Abbildung 
79 zeigt diese Itemprofile. 



Dasselbe Muster spiegelt sich in den 
mittleren Itemlosungswahrscheinlichkei- 
ten der beiden Klassen wieder: 



Item 


1 


2 


3 


4 


5 


Klasse 1 
(37%) 


0.86 


0.92 


0.83 


0.89 


0.59 


Klasse 2 
(63%) 


0.53 


0.38 


0.27 


0.08 


0.15 



Als ‘mittlere Losungswahrscheinlichkei- 
ten’ werden die iiber alle Personen in 
einer latenten Klasse gemittelten Lo- 
sungswahrscheinlichkeiten der Items be- 
zeichnet. 
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Abbildung 80: Die mittleren Losungswahr- 
scheinlichkeiten der beiden Klassen 

Die kleinere Klasse ist also die Klasse 
der ‘Konner’, die groBere die der ‘Nicht- 
Konner’. Dieses laBt sich anhand der 
Itemparameter nicht erkennen, da sie in 
beiden Klassen sunmiennormiert sind. 



Als Ergebnis einer Testung und Auswer- 
tung rnit dem mixed Rasch-Modell erhalt 
man also zwei Personenmefiwerte: 

Erstens, ihre wahrscheinlichste Klassen- 
zugehorigkeit als Auspragung einer kate- 
gorialen Personenvariable und 

zweitens, ihre Fahigkeitsauspragung in- 
nerhalb dieser Klasse als Auspragung 
einer quantitativen Personenvariable. 

Die Ermittlung der wahrscheinlichsten 
Klassenzugehorigkeit fiir jede Person 
erfolgt genauso wie im Modell der 
Klassenanalyse (s.o. Kap. 3. 1.2.2). Sie 
ergibt sich daraus, fiir welche Klasse die 
bedingte Pattemwahrscheinlichkeit p(x|g) 
am groBten ist. 

Auch hier laBt sich ein Mittelwert 
der Klassenzugehbrigkeitswahrscheinlich- 
keiten berechnen, der die Treffsicherheit 
der Klassenordnung fiir alle Personen ei- 
ner Klasse angibt. 



Datenbeispiel : Zuordnungswahrschein- 
lichkeiten 

Eine Person mit dem Antwortmuster 
x = (11100) hat in diesem Datenbeispiel 
die beiden Zuordnungswahrscheinlichkei- 
ten von 

p(g = l|x) = 0. 05 und p(g = 2|x) = 0.95 , 

gehort also eher der zweiten Klasse an. 
Eine Person mit dem Pattern & = (OHIO) 
hat die Zuordnungswahrscheinlichkeiten: 

p(g = l| x) = 0.61 und p(g = 2|x) = 0.39, 

und gehort daher eher der ersten Klasse 
an. Obwohl beide Personen denselben 
Score haben (r = 3), werden sie aufgrund 
ihres Antwortprofils unterschiedlichen 
Klassen zugeordnet. 

Die Treffsicherheiten liegen fiir die beiden 
Klassen bei: 

T, = 0.96 und T 2 = 0.94. 



Genauso wie beim normalen Rasch- 
Modell erhalten alle Personen mit dem- 
selben Summenscore auch denselben 
Personenparameter. Im Unterschied zum 
Rasch-Modell werden jedoch klassen- 
speziftsche Personenparameter berechnet, 
d.h. jede Person erhalt soviele Personen- 
parameter wie es latente Klassen gibt. 

Allerdings werden sich diese verschie- 
denen Fahigkeitsparameter fiir eine Person 
numerisch nicht sehr voneinander unter- 
scheiden: Sie hangen zwar in jeder Klasse 
von den dort giiltigen Itemparametem ab 
und konnten sich von daher sehr wohl 
unterscheiden. Jedoch hat jede Person 
natiirhch nur einen Summenscore - egal 
welcher Klasse sie angehort - und die 
diesem Score zugeordneten Parameter- 
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Schiitzungen unterscheiden sich nur in 
besonderen Fallen. 

Datenbeispiel: Personenparameter 

Die Schatzungen der Personenparameter 
lauten: 

r I 0 1 2 3 4 5 

£ -2.65 -1.27 -0.42 0.36 1.27 2.75 

8rl 

£ -2.97 -1.46 -0.46 0.46 1.46 2.97 

0r2 

Ebenso wie beim normalen Rasch- 
Modell sind die Personenparameter fiir 
Personen, die gar kein Item geldst haben 
oder die aUe Items geldst haben , nicht 
exakt bestimmbar. Um solche Personen 
nicht eliminieren zu mussen, gibt es je- 
doch spezielle Schatzverfahren, die eine 
unter praktischen Gesichtspunkten be- 
friedigende Schatzung erlauben. 



und werden durch Multiplikation mit der 
Wahrscheinlichkeit dieses Scores r in 
Klasse g wieder zur unbedingten Pattern- 
W ahrscheinlichkeit : 

(6) p(x|g) = p(x|r,g) - p(r|g) . 

Die klassenspezifischen Scorewahrschein- 
lichkeiten p( sind die neuen Parameter 

des Modells und mussen anhand der Daten 
geschatzt werden. Bezeichnet man sie mit 
7t r g, so ergibt sich fiir die globale, d.h. 

klassenunspezifische Pattern walirsehcin- 

lichkeit analog zu Gleichung (8) in Kapitel 
3. 1.2.2: 

G 

(7) p(x)= X "g P(*|g) 

g=l 

= E K g K rg p(x|r,g). 
g=l 



Das mixed Rasch-Modell, soweit es 
bislang beschrieben wurde, enthalt sehr 
viele Modellparameter - zu viele, um sie 
alle gleichzeitig zu schatzen. 

Deswegen wird hier dieselbe Reparame- 
trisierung vorgenommen, die schon fiir das 
noimale Rasch-Modell beschrieben wurde 
(vgl. Kap. 3.1. 1.2.2). Das Modell baut 
statt auf den unbedingten auf den be- 
dingten Pattern wahrschcin I ichkei ten auf, 
in denen die Personenparameter 0 vg nicht 

mehr enthalten sind (vgl. Gleichung (13) 
in 3.1. 1.2.2). Die bedingten Patternwahr- 
scheinliclikeiten sind als Anted definiert, 
den ein bestimmtes Pattern an der Ge- 
samtwalirschcinlichkeit aller Pattern mit 
Score r hat, 

(5) p(x|r,g) = 




Die Walirschcinlichkciten p(x|r, g) sind 

wiederum eine relativ ‘einfache' Funktion 
der Itemparameter und ihrer synmietri- 
schen Grundfunktionen (vgl. (14) und (15) 
in 3. 1.1. 2.2): 



(8) p(x|r,g) = 




Insbesondere sind in (8) die Personenpa- 
rameter nicht mehr enthalten. Die Modell- 
gleichung des mixed Rasch-Modells auf 
der Ebene der Pattern wahrschcin I ichkei ten 
laBt sich somit wie folgt schrciben 



ex p(-I x i^ig) 
(9) P(x) X K g K rg „ ^„ xp (_ a )) 
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Die Score wall rsehc i n I ic- h ke i te n n rg miis- 

sen sich iiber alle Scores r zu 1 addieren, 
denn ein Summenscore muB schlieBlich 
mit jedem Antwortpattem verbunden sein: 
k 

(10) £ n Tg = 1 fur alle g . 

r=0 



Um diese Parameter anschaulicher zu 
machen, kann man sie mit der geschatzten 
Anzahl der Personen in einer Klasse 
multiplizieren und erhalt so die erwarteten 
Scorehaufigkeiten fur jede Klasse 

A 

(11) n rg = 7t rg • 7tg ■ N . 



Datenbeispiel: Scorehaufigkeiten 

Die Scorehaufigkeiten lauten fiir das 
Datenbeispiel: 

r I 0 1 2 3 4 5 

A 0.1 3.3 4.6 6.3 60.9 34.3 

n r l 



A 57.9 44.7 41.4 43.7 0.1 1.7 

n r 2 

Wiederum sieht man, daB es sich hier 
um zwei 'Leistungsklassen' handelt: in 
der ersten Klasse sind die ‘Konner’, bei 
denen die Scores 1 bis 3 fast gar nicht 
auftreten, in der zweiten Klasse sind die 
weniger leistungsstarken Schuler. 



Im Gegensatz zur Scoreverteilung der 
Rohdatenmatrix sind die klassenspezi- 
fischen Scor evert eilungen beim mixed 
Rasch-Modell nicht mit ganzzahligen 
Hdufigkeiten gebildet: Da es sich um 
latente Haufigkeiten handelt, konnen sie 
auch gebrochene Werte annehmen, was 
bei manifesten Klassen nicht moglich ist. 
Sie addieren sich aber iiber die Klassen zu 
den beobachteten Scorehaufigkeiten. 



Obwohl die Scoreparameter unproblema- 
tisch zu schatzen sind, haben sie den 
Nachteil, daB es sehr vide sind. Berechnet 
man zum Beispiel fiir einen Test mit zehn 
Items die 3-Klassenlosung, so benotigt 
man 33 Scoreparameter. 

Eine solche Anzahl kann zum einen 
Schwierigkeiten bei der Modellgeltungs- 
kontrolle bereiten (s. Kap 5), vor alleni ist 
aber hier das Prinzip verletzt, daB ein Mo- 
dell nur solche Parameter enthalten sollte, 
die auch tatsachlich interpretiert werden. 
Die relative Haufigkeit, mit der ein ein- 
zelner Summenscore in einer Klasse auf- 
tritt, wird im Allgemeinen nicht interpre- 
tiert. 

Man kann daher die Scoreverteilung in 
den Klassen auch durch eine Funktion 
anpassen, die weniger Parameter enthalt. 
Eine sehr brauchbare Funktion, die nur 
zwei Parameter p und p enthalt, ist die 
folgende logistische Funktion 



exp 



(12) rc rg = — 



p g + 



4r(k - r) 



k^g 



Pg 



X ex P 

s=0 



k^g + 



4s(k - s) 



Der Parameter p ist ein Lokationspara- 
meter, gibt also an, wo der Mittelwert der 
Verteilung liegt. Der Parameter p (rho) ist 
dagegen ein Dispersionsparameter, der 
angibt, wie ‘breit’ die Verteilung ist. 

Die folgende Abbildung zeigt eine unre- 
stringierte und eine restringierte Score- 
verteilung. 
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Abbildung 81: Eine unrestringierte und eine 
restringierte Scoreverteilung 



Die logistische Verteilung ‘glattet’ die ‘hol- 
perige' unrestringierte Verteilung. Dabei 
ist dieser Verteilungstyp in der Lage, sehr 
unterschiedliche Verteilungen anzupassen, 
die auch u-formig sein konnen. Abbildung 
82 zeigt einige Beispiele. 

Die Parameter |i und p konnen irn Sinne 
der mittleren Eigenschaftsauspragung in 
einer Klasse (p) bzw. der Streuung der 
Eigenschaftsauspragungen in der Klasse 
(p) interpretiert werden. 






Abbildung 82: Beispiele fur 4 logistische Score - 
verteilungen mit den Parmetern: |4]=0, P]=6; 

b2= ~ 3 - P2= 3; b3= 6 ’ P3 = 6; P4= °- P4= “ 6 



Datenbeispiel: restringierte Score- 
verteilung 

Die 2-Klassenlosung des Datenbeispiels 
hat die folgenden unrestringierten h rg 
/\ * 

und restringierten n rg Scorehaufigkeiten 
vgl. (11): 





g-- 


= 1 


g = 


--2 


r 


"rl 




n r 2 




0 


0.1 




57.9 


56.8 


1 


3.3 


4.6 


44.7 


45.2 


2 


4.6 


19.3 


41.4 


23.9 


3 


6.3 


44.5 


43.7 


8.4 


4 


60.9 


55.9 


0.1 


2.0 


5 


34.3 


38.4 


1.7 


0.3 


131 


0.37 


0.54 


0.63 


0.46 



Man sieht, dab die jeweils rechte Spalte 
eine sehr viel ‘glattere' Haufigkeitsver- 
teilung wiedergibt. Insbesondere der 
Knick’ in den unrestringierten Vertei- 
lungen zwischen Score 3 und 4 ver- 
schwindet: Wahrcnd in der unrestrin- 
gierten Losung fast alle Personen mit 
dem Score 0, 1, 2 oder 3 in Klasse 2 sind 
und Personen mit Score 4 oder 5 der 
Klasse 1 angehoren, werden in der re- 
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stringierten Losung Personen mit einem 
mittleren Score, r = 2 oder r = 3, gleich- 
maBiger aufgeteilt. Das fiihrt dazu, daB 
die Klasse der ‘Konner’ wesentlich 
groBer wird. 

Die beiden Parameter der logistischen 
Verteilung (12) lauten: 

Pi =4.2 p^l.9 
und [ 12 -— 5.2 p 2 = 1.3. 

Die P-Parameter drucken aus, daB sich 
die beiden Klassen stark in der Hohe der 
Scores unterscheiden. Da die Disper- 
sionsparameter p positiv sind, sind auch 
beide Verteilungen eingipflig. 

In diesem Beispiel hat die Restringiemng 
der Scoreverteilung mittels der logi- 
stischen Funktion dazu gefuhrt, daB sich 
auch die beiden Klassen selbst verandert 
haben. Die Einfiihrung einer solchen 
Verteilungsannahme kann also neben der 
Einsparung von Parametern auch den 
Zweck haben, die Klassenstruktur unter 
der Bedingung dieser Verteilungsannahme 
zu analysieren. 

Die Anzahl unabhdngiger Parameter irn 

mixed Rasch-Modell hiingt naturlich von 
der gewiihlten Parametrisicrung der Score- 
Verteilungen ab. 



Anzahl der Modellparameter 

Wegen der Summennormiemng gibt es 
k-1 unabhangige Itemparameter (s. 
Gleichung (4)) in jeder Klasse, also G (k- 
1) Itemparameter insgesamt. 

Hinzu kommen G-l unabhangige Kias- 
sengrofienparameter (s. Gleichung (3)). 



Die Auszahlung der Scoreparameter 
gestaltet sich dadurch schwierig, daB fur 
Personen, die alle oder kein Item gelost 
haben, die Klassenzugehorigkeit nicht als 
Bestandteil des Modells definiert ist: der 
Vektor x = (00000...) und der Vektor 
x = (11111...) als Antwortvektor ist in 
alien latenten Klassen gleich wahr- 
scheinlich. 

Dies laBt sich foimal ableiten, ist aber 
auch intuitiv ersichtlich, da diese beiden 
Antwortmuster keinerlei Information iiber 
das Profit der Losungswahrscheinlichkei- 
ten einer Person enthalten. Zur Klassen- 
einteilung der getesteten Personen tragen 
daher die beiden Antwortmuster nichts bei 
(worm ein wesentlicher Unterschied zur 
latent-class Analyse besteht). 

Die Konsequenz besteht darin, daB von 
k + 1 moglichen Summenscores 2 Score- 
wahrscheinlichkeiten (fiir die Extrem- 
scores) nicht kiassenspezifisch sind, so daB 
in jeder Klasse nur k-1 Scorewahr- 
scheinlichkeiten zu schatzen sind. Von 
diesen ist nochmals ein Parameter abzu- 
ziehen, da sich die Scorewahrscheinlich- 
keiten in jeder Klasse zu 1 addieren 
(schlieBlich sind es Wahrscheinlich- 
keiten!). Es verbleibt die Anzahl von 
2+G(k-2) unabhdngigen Scorepara- 
metern. 

Im Falle der restringierten Scorevertei- 
lungen gibt es pro Klasse 2 Parameter also 
insgesamt 2G Scoreparameter. 



Obwohl eine Aufspaltung der beobach- 
teten Haufigkeiten von Score r = 0 und 
r = k anhand der Modellparameter nicht 
moglich ist, sind in den o.g. Tabellen stets 
auch die klassenspezifischen Haufigkeiten 
dieser Scores aufgefuhrt. Diese Haufigkei- 
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ten stellen Schatzungen anhand der iibri- 
gen Scorewahrscheinlichkeiten dar (sog. 
Extrapolationen) und beeinflussen nicht 
die Schatzung der Itemparameter in den 
Klassen. 



Literatur 

Das mixed Rasch-Modell geht auf Arbei- 
ten von Rost (1990), Mislevy & Verhelst 
(1990) und Kelderman & Macready 
(1990) zuriick. Detailliertere Darstellun- 
gen finden sich bei Rost & v. Davier 
(1995) und Rost (1995). Anwendungs- 
beispiele geben Koller (1994), Roller et al. 
(1994), Rost & v. Davier (1993) und Rost 
& Langeheine (1996). 



Ubungsaufgaben 

1. Wieviele unabhangige Modellparame- 
ter wurden in dem KFI-Beispiel insge- 
samt geschatzt? 

2. Berechnen Sie mit WINMIRA die 
Itemprofile der 2-Klassenlosung mit 
restringierten Scoreverteilungen. Wel- 
che Pattern mit Score r = 2 gehoren 
eher der Klasse der ‘Konner’ an, welche 
der Klasse der ‘Nicht-Konner’ ? 

3. Denken Sie sich je einen Leistungstest 
und einen Persbnlichkeits- oder Ein- 
stellungstest aus, fur den die Geltung 
des mixed Rasch-Modells mit 2 Klas- 
sen theoretisch plausibel ist. 
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3.2 Modelle fur nominale 
Itemantworten 

In Kapitel 3.1 wurde gesagt, daB dichoto- 
me Itemantworten der einfachste Fall von 
Itemantworten sind und vielleicht auch der 
haufigste. Unter den mehrkategoriellen 
Itemantworten sind ordinale Itemantwor- 
ten, wie sie z.B. nrit Ratingskalen erhoben 
werden, die haufigsten. Reine nominale 
Itemantworten sind eher selten, was je- 
doch auch an der Konrpliziertheit ihrcr 
Auswertung liegen mag. Wenn jede Ant- 
wort auf ein Item qualitativ etwas anderes 
bedeutet, so ist es zwar leicht, nrit Hilfe 
eines Testnrodells eine kategoriale Perso- 
nenvariable zu erfassen, jedoch eher 
schwierig, eine quantitative Personen- 
variable zu nressen. 

Diesen Unterschied kann man auch ohne 
eine Foimalisierung nachvollziehen: Ein 
Testnrodell wie die latent-class Analyse 
ninrnrt lediglich an, daB in jeder Klasse 
bestinrmte Antwortwahrscheinlichkeiten 
konstant fur alle Personen dieser Klasse 
gelten. Dies kann man sich nicht nur fur 
dichotonre, sondern gleichernraBen fur 
nrelirkategorielle Itemantworten vorstel- 
len: man ninrmt entsprechend an, daB die 
Antwortwahrsehcinlichkeiten bezirglich 
alter Kategorien eines Items in jeder 
Klasse konstant sind. Die Generalisierung 
der dichotonren latent-class Analyse auf 
den Fall nominaler Itemantworten ist sehr 
gradlinig und wird in Kapitel 3.2.1 
behandelt. 

Mochte man nrit nominalen Itemantworten 
dagegen quantitative Personenvariablen 
erfassen, so nruB man zunachst das Pro- 
blem klaren, wie man verschiedene quali- 



tative Beobachtungen (die Itemantworten) 
den zu nressenden Quantitaten zuordnet. 

Dies setzt voraus, daB man bei jedenr Item 
fur jede Itemantwort genau weiB, welche 
latente Personenvariable sie anspricht. Soil 
daraus aber ein praktikables Testnrodell 
abgeleitet werden, so ist weiter anzuneh- 
nren, daB es furjede zu nressende Dimen- 
sion bei jedem Item auch eine zugehorige 
Itemantwort gibt. Sonrit hat jedes Item 
gleich viele Antwortkategorien und je- 
weils eine Kategorie entspricht einer zu 
nressenden Personeneigenschaft. Das ist 
die Idee des mehrkategoriellen mehrdi- 
mensionalen Rasch-Modells, welches in 
Kapitel 3.2.2 dargestellt wird. 

Die Idee, daB man nrit me lire re n nomina- 
len Antwortkategorien nur eine latente 
Personenvariable nriBt, ist dagegen nicht 
realisierbar. Man wurde hierfur irgendeine 
Annahme benotigen, wie qualitative Item- 
antworten nrit genau einer Personen- 
variable zusammenhangen (s. Kap. 2.5.2). 

Ninrnrt man zunr Beispiel an, daB die Ant- 
wortkategorien die latente Valuable unter- 
schiedlich stark ansprechen, d.h. daB es 
vonr Auspragungsgrad der Eigenschaft ab- 
hangt, welche Kategorie man wahlt, so 
gelangt man unweigerlich zu ordinalen 
Antwortkategorien. Es ist dies genau die 
Annahme von quantitativen Modellen fur 
ordinale Daten, wie sie in Kapitel 3.3 be- 
handelt werden. 

Zusammenfassend ergibt sich die etwas 
asymmetrisch erscheinende Situation, daB 
sich nrit nominalen Itemantworten zwar 
leicht eine nominale Personenvariable 
messen laBt, daB es aber nur moglich ist, 
so viele quantitative Personenvariablen zu 
messen, wie es Antwortalternativen gibt. 
Aus diesenr Grand kann es manchmal 





3.2 Modelle fur nominale Itemantworten 



179 



angebracht sein, nominale Itemantworten 
mittels der Klassenanalyse auszuwerten 
statt mit einem quantitativen Testmodell. 
Andererseits ermoglicht das mehrdimen- 
sionale Rasch-Modell, das fur jede Ant- 
wortkategorie eine eigene latente Variable 
vorsieht, sehr interessante Interpretations- 
moglichkeiten (s. Kap. 3.2.2). 



Das nominale Antwortformat besteht 
aus den folgenden 4 Kategorien: 

0: Habe ich schon getan bzw. tue ich 
bereits. 

1: Kann ich mir gut vorstellen. 

2: Wiirde ich tun, wenn geeignete Be- 
dingungen geschaffen wiirden. 



Datenbeispiel 

Als Datenbeispiel dient in diesem Kapi- 
tel ein Fragebogen zum Umwelthan- 
deln, der in einer bundesweiten Befra- 
gung von Lehrerinnen und Lehrcrn ein- 
gesetzt wurde (Eulefeld et al. 1993). In 
den 9 Items des Fragebogens, von de- 
nen die ersten 5 hier als Datenbeispiel 
ausgewahlt wurden, sind verschiedene 
Tdtigkeiten aufgefiihrt und als Item- 
stanmi ist die Frage gestellt: 

‘Jeder Einzelne ist aufgefordert, 
durch eigenes Tun einen Beitrag 
zur Verbesserung der Umwelt- 
situation zu leisten. Wie ist es bei 
Ihnen ?’ 

Die 5 Items lauten: 

1. Regelmafiig mit offentlichen Ver- 
kehrsmitteln oder dem Fahrrad zur 
Schule fahren bzw. zu Fufi gehen. 

2. Eine politische Partei deshalb wah- 
len, weil sie den ‘okologischen Um- 
bau’ der Industriegesellschaft an- 
strebt. 

3. Einem Umweltverband fur den 
Schutz bedrohter Arten Geld spen- 
den. 

4. Auf die Ausiibung einer Sportart 
verzichten (z.B. Skifahren, Motor- 
sport), um die Umwelt zu schonen. 

5. An einer Versammlung einer Um- 
welt- oder Naturschutzgruppe teil- 
nehmen. 



3: Ich halte das fur ungeeignet, um die 
Umwelt zu schiitzen. 

Mit den beiden letzten Kategorien soli 
erhoben werden, warum bestimmte Ta- 
tigkeiten nicht ausgefiihrt werden, und 
die zweite Kategorie (‘kann ich mir gut 
vorstellen’) bietet den Befragten eine 
weitere Moglichkeit ‘zuzugeben’, dab 
man diese sicherlich ‘sozial er- 
wiinschten’ Tatigkeiten nicht ausfiihrt. 
Der verzetrende Einfl ul.’> der Variable 
soziale Erwiinschtheit (s. Kap. 2.3) soli 
mit diesen Antwortkategorien 
moglichst gering gehalten werden. Die 
Antwortkategorien bilden weder eine 
Rangskala, noch kann angenommen 
werden, dab eine einzige quantitative 
Personenvariable das Antwortverhalten 
erklart. 

Das Datenbeispiel urnfabt die Antwor- 
ten von N = 800 Lehrerinnen und Leh- 
rern. Es ergeben sich die folgenden 
Kategorienhaufigkeiten: 



i= 


1 


2 


D 


D 


5 










342 


233 














2 


392 


93 


55 


47 


75 


3 


7 


168 


104 


69 


111 



Die vollstandigen Pattemhaufigkeiten 
hier wiederzugeben ist zu aufwendig, da 
deren Anzahl zu grob ist. 
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Ubungsaufgaben 

1. Wieviele unterschiedliche Antwort- 
muster sind bei diesem Beispiel 
prinzipiell beobachtbar? 

2. Wie konnte man die 4 Personenvaria- 
blen beschreiben, die das mehrdimen- 
sionale Rasch-Modell bei diesem Da- 
tenbeispiel erfassen wiirde? 



3.2.1 Klassenanalyse nomina- 
ler Daten 

In Kapitel 3. 1.2.2 wurde das Modell der 
latent-class Analyse aus vier Annahmen 
abgeleitet, namlich 

1. die Annahme konstanter Losungswahr- 
scheinlichkeiten fur alle Personen einer 
Klasse, 

2. die Annahme disjunkter und exhausti- 
ver Personenklassen, deren GroBe un- 
bekannt ist, 

3. der Annahme der Itemhomogenitat und 

4. die Annahme der stochastischen Unab- 
hangigkeit aller Itemantworten in 
einem Test. 

Aus denselben Annahmen ist auch das 
Modell der latent-class Analyse fur no- 
minale Daten herleitbar mit dem kleinen 
Unterschied, daB nun in Annahme 1 nicht 
mehr von konstanten Eosungswahrschein- 
lichkeiten gesprochen wird, sondern von 
konstanten Antwortwahrscheinlichkeiten 
fur alle Antwortkategorien eines Items. 

Die Grundidee ist also die, daB es eine be- 
stimmte Anzahl von Klassen von Perso- 
nen gibt, innerhalb derer die Wahrschein- 
lichkeiten, eine bestimmte Kategorie von 
m+ 1 vorgegebenen Kategorien anzukreu- 



zen, konstant sind. In Entsprechung zu 
Foimel (1) in Kapitel 3. 1.2.2 lautet daher 
die Grundgleichung, die sich aus der er- 
sten Modellannahme ergibt: 

(1) p(x vi = x|0 v = g) = 7t ixg 
mit x e {0,l,...m} . 

Die Antwortvariable X vi kann Werte zwi- 

schen 0 und m annehmen, d.h. sie umfaBt 
m+1 Antwortkategorien. Fiir jede dieser 
Antwortkategorien wird ein Wahrschein- 
lichkeitsparameter 7C j X g eingefiihrt, der die 

Wahrscheinlichkeit charakterisiert, daB in 
Klasse g bei Item i in Kategorie x geant- 
wortet wird. Diese m+1 Antwortwahr- 
scheinlichkeiten eines Items in einer 
Klasse miissen sich zu 1 addieren, da jede 
Person genau eine Alternative auszu- 
wahlen hat und daher die folgende Nor- 
mierungsbedingung gilt: 
m 

(2) In ixg = l- 

x=0 

In Entsprechung zu Gleichung (5) in Kapi- 
tel 3. 1.2.2 ergibt sich aufgrund der zwei- 
ten Annahme exhaustiver und disjunkter 
Klassen mit unbekannten KlassengroBen 
7tg die folgende Gleichung fiir die unbe- 
dingten Antwortwahrscheinlichkeiten: 

( \ ° 

(3) Pl^Xyj — X J — ^ ^g^ixg- 

g=l 

Auch hier gilt selbstverstandlich fiir die 
Klassengrofienparameter 7tg, daB sie sich 
zu 1 addieren miissen, d.h. 

(4) X Tig = 1 ■ 
g=4 
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Aufgrund der beiden weiteren Annahmen 
der Itemhomogenitat und stochastischen 
Unabhangigkeit ergibt sich schlieBlich die 
unbedingte Patternwahrscheinlichkeit als 
Modellgleichung dieses Modells. Diese 
entspricht Formel (10) in Kapitel 3. 1.2.2: 

G k 

(5) p(x)=i^n «ix g - 

g=l i=l 

Verglichen mit Gleichung (10) im Kapitel 
3. 1.2.2 sieht diese Gleichung sogar noch 
einfacher aus, da die Schreibweise niit den 
Exponenten x 4 bzw. 1-X; entfallt. Dies 
liegt damn, dal) hier jede Antwortkategorie 
einen eigenen Parameter tt i x g erhalt, wah- 

rend im dichotomen Fall nur die Wahr- 
scheinliclikeit fur x=l parametrisiert ist. 
Dafiir rnuB hier die Normierungsbe- 
dingung (2) beriicksichtigt werden, was im 
dichotomen Fall der Tatsache gleich- 
kommt, daB von 2 moglichen Parametem 
nur einer in der Modellgleichung auftritt. 

Datenbeispiel 

Analysiert man das oben genannte Da- 
tenbeispiel mit vier Antwortkategorien 
unter der Annahme von drei latenten 
Klassen, also einer dreikategoriellen Per- 
sonenvariable, so ergeben sich die fol- 
genden Modellparameter: 



i=l 


i=2 


i=3 


i=4 


B 


Klasse 1: 


ViMil 


0.00 


0.16 


0.28 


0.07 


0.30 


0.62 




lEIH 


0.03 




0.11 







Klasse 2: 



0.21 0.31 0.06 



0.19 0.37 0.19 



0.54 0.20 0.21 0.07 0.19 



0.01 0.47 0.39 0.25 0.56 



Klasse 3: 



0.76 0.53 0.48 



0.20 0.39 0.46 



Personen in Klasse 1 haben bei 

Item 1 die A nt wort wall rse hcinliehkeit 
7i 10 | = 0.24 beziiglich Kategorie x = 0, 
wahrend in Klasse 2 die Ant- 

wort wall rse hcinliehkeit TTj = 0-39 be- 
tragt und in Klasse 3 Ttj 03 = 0.41. 

Die KlassengroBenparameter 7t g lauten: 

7t 1 =0.22,7t2=O.23=0.23und7t3=O.55.=0.55.Betrach- 
tet man die Antwortwahrscheinlichkeiten 
der ersten Antwortkategorie (x=0) in den 
drei Klassen, so sieht man, daB die Per- 
sonen in Klasse 3 am meisten angeben 
zu handeln, wahrend diese Wahrschein- 
lichkeiten, zumindest bei den Items 2 bis 
5, in den beiden anderen Klassen 
deutlich geringer sind. 

Klasse 1 zeichnet sich dadurch aus, daB 
die Wahrsehcinliehkeiten fur die zweite 
Kategorie (‘kann ich mir gut vorstellen’) 
recht groB sind. Dies ist offensichtlich 
ein Typ von Personen, der geme mehr 
fur die Umwelt tun wiirde (bzw. es 
angibt), es aber nicht tatsachlich tut. 

In Klasse 2 sind (auBer fur das erste 
Item) die Wahrsehcinliehkeiten der letz- 
ten Antwortkategorie sc hr hoch. Man 
konnte diese Personen (etwas bosartig) 
als ‘die Rationalisiere? bezeichnen, denn 
sie halten viele der erfragten Verhaltens- 
weisen fur ungeeignet, die Umwelt zu 
schiitzen. 
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Tm Unterschied zur latent-class Analyse 
dichotomer Daten lassen sich diese Ergeb- 
nisse nicht mein - so einfach in Form von 
Itemprofilen darstellcn. Man braucht z.B. 
im vorliegenden Datenbeispiel vier Profile 
fur jede Klasse, was innerhalb einer Ab- 
bildung selir unubersichtlich wird. In Ab- 
bildung 83 sind daher die Antwortprofile 
fur jede Klasse getrennt abgebildet. 






-♦ — x=0 — ■ — X— 1 — A — x=2 — X — x=3 



Abbildung 83: Die Antwortprofile der 3 Klassen 
aus dem Datenbeispiel 

Audi macht es im Unterschied zum Fall 
dichotomer Daten im allgemeinen keinen 
Sinn von geordneten Klassen zu sprechen, 
da die A nt wort wall rsc he i n I ich ke i te n fiir 



jede Kategorie zwischen den Klassen 
anders geordnet sein konnen. 

Anhand des Datenbeispiels kann illustriert 
werden, wie die Personen anhand ill res 
Antwortmusters den Klassen zugeordnet 
werden. So werden etwa die folgenden 
drei Antwortmuster mit relativ groBer 
Wahrscheinlichkeit je einer der drei Klas- 
sen zugeordnet, da diese Personen bei 
alien Items eine Kategorie ausgewahlt 
haben, die in dieser Klasse eine hohe 
Wahrscheinlichkeit besitzt. 

x = (1 13 1 1), p(g— 1 1 x ) = 0.95 
x = (2 3 03 2), p(g=2lx ) = 0.90 
x =(0 1 00 1), p(g=3lx ) = 0.87 

Bei anderen Antwortmustem ist die Zu- 
ordnung zu den latenten Klassen nicht so 
eindeutig. So weist eine Person, die sich 
nur in einer Antwort von dem dritten, 
zuvor genannten Pattern unterscheidet 

x = (0 1 2 0 1) 

folgende Zuordnungswahrscheinlichkeiten 
auf: 

p(g= 1 1 x ) = 0.41 
p(g=2lx ) = 0.18 
P (g=3lx ) = 0.41 

Einem Umweltverband Geld zu spenden 
(i = 3), hat in der Klasse der ‘Handelnden’ 
(g = 3) offensichtlich einen so hohen 
Stellenwert, daB man dieser Klasse nicht 
mehr zugeordnet wird, wenn man nur 
unter geeigneteren Bedingungen spenden 
wiirde (x v3 = 2). 

Die allgemeine Formel zur Bestimmung 
der Zuordnungswahrscheinlichkeiten laBt 
sich analog zu (11) in Kapitel 3. 1.2. 2 
ableiten und lautet: 
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_ / , \ P(^|g) 

(6) p(g|x) = -o _i • 

X K h P(*|h) 

h=l 

Mochte man fur jede getestete Person kon- 
kret deren Klassenzugehorigkeit bestim- 
men, so wird man die Person derjenigen 
Klasse mit der hochsten Zuordn u ngswahr- 
scheinliclikeit zuordnen, was sich fur das 
zuletzt genannte Antwortmuster allerdings 
erst in der dritten Kommastelle entschei- 
det. 

Auch die mittlere Trejfsicherheit fur alle 
Personen einer Klasse laBt sich analog zu 
Foimel (15) in Kapitel 3. 1.2.2 bestimmen. 
Sie ist ein Indikator fur die Giite der 
Klasseneinteilung und somit fur die MeB- 
genauigkeit des Tests. Im Datenbeispiel 
ergeben sich fur die drei Klassen die fol- 
genden mittleren Zuordn ungswahrschcin- 
lichkeiten: 

Tj =0.78 

T 2 = 0.88 

T 3 = 0.87 

Ein groBer Vorteil der Klassenanalyse no- 
minaler Daten kommt bei diesem Daten- 
beispiel gar nicht zum Tragen. Es ist nam- 
lich nicht erforderlich, daB alle Items glei- 
che Kategorienanzahlen haben. D.h. es ist 
moglich, daB z.B. Item 1 zwei Kategorien, 
Item 2 vier Kategorien und Item 3 fiinf 
Kategorien aufweist. In dieser Hinsicht ist 
die latent-class Analyse sehr flexibel und 
universell einsetzbar. 

In Kapitel 3. 1.2.3 wurde beschriebcn, wie 
mit Hilfe von Parameterrestriktionen spe- 
zielle latent-class Modelle berechnet wer- 
den konnen. Diese Moglichkeiten des Fi- 
xierens von Parametern auf bestimmte 
Werte und des Gleichsetzens von minde- 
stens zwei Modellparametern bestehen 



auch bei der Klassenanalyse fur nominale 
Daten. Die in Kapitel 3. 1.2.3 dargestellten 
Uberlegungen sind entsprechend verallge- 
meinerbar und sollen hier nicht weiter 
ausgefiihrt werden. 



Literatur 

Die latent-class Analyse wird im Allge- 
meinen nicht getrennt fiir dichotome und 
nominale Daten dargestellt, so daB auch 
hier auf die Bucher von Lazarsfeld & 
Henry (1968), Formann (1984) und 
McCutcheon (1987) sowie auf den Uber- 
blicksartikel von Langeheine und Rost 
(1993) verwiesen werden kann. 



Ubungsaufgaben 

1. Welcher Klasse wird das folgende Ant- 
wortmuster mit groBter Wahrschein- 
lichkeit zugeordnet: 

x = (00313) 

2. Welches der 5 Items ist nach der oben 
gegebenen Interpretation der drei Klas- 
sen das ‘schlechteste’, d.h. am wenig- 
sten ‘trennscharfe’ Item (Begriindung)? 






184 



3. Testmodelle 



3.2.2 Das mehrdimensionale 
Rasch-Modell 

Will man mit mehreren nominalen Ant- 
wortkategorien quantitative Personenva- 
riablen messen, so setzt dies - wie in der 
Einleitung von Kapitel 3.2 ausgefiihrt - 
voraus, daB alle Items gleich viele Kate- 
gorien haben und jeweils eine Kategorie 
eine bestimmte Dimension anspricht. In 
Kapitel 2.5.2 liber die Kodierung von 
Antwortkategorien wurde dies am Beispiel 
eines Attributionsfragebogens beschrie- 
ben, bei dem jede von vier Antwort- 
alternativen einem der vier Attributions- 
stile entspricht. 

Nur in diesem Fall macht es Sinn, fiir die 
Personen Summenscores zu bestimmen, 
also die Haufigkeiten, mit denen eine 
Person eine bestimmte Kategorie bei den 
Items ausgewahlt hat. Wiirden sich die 
Kategorien zwischen den Items nicht ent- 
sprechen, waren solche Summenscores 
unsinnig. 



Datenbeispiel: Scorevektoren 

In dem Fragebogen zum Umwelthandeln 
wurden vier Antwortkategorien unter- 
schieden (siehe oben): 

0: Habe ich schon getan bzw. tue ich 
bereits. 

1 : Kann ich mir gut vorstellen. 

2: Wiirde ich tun, wenn geeignete Be- 
dingungen geschaffen wurden. 

3: Ich halte das fiir ungeeignet, urn die 
Umwelt zu schiitzen. 

Dementsprechend erhalt jede Person 
einen Vektor von 4 Summenscores, die 
angeben, wie oft sie in jeder Antwortka- 
tegorie geantwortet hat 




Das ergibt bei 5 Items die stattliche An- 
zahl von 56 unterschiedlichen Vektoren 
von Summenscores. So gibt es z.B. 
allein vier extreme Scorevektoren, bei 
denen die Person 5-mal in derselben 
Kategorie geantwortet hat, namlich 

r = (5, 0,0,0) mitn(r) = 19 

r = (0,5,0,0) mitn(r) = 15 

r = (0, 0,5,0) mitn(r) = 0 

r = (0,0,0,5) mit n(r) = 0 . 

Angegeben sind jeweils auch deren be- 
obachtete Haufigkeiten n(r). Die Zahl 
der Scorevektoren, bei denen 4-mal die- 
selbe, aber einmal eine andere Kategorie 
angekreuzt wurde, betragt 12, und sie 
wurden mit folgenden Haufigkeiten 
beobachtet: 



Y_ 


n(r) 


4 100 


53 


40 10 


35 


400 1 


6 


1400 


15 


1040 


2 


1004 


2 


04 10 


19 


040 1 


11 


0 140 


0 


0 104 


0 


004 1 


1 


00 14 


5 



Tm Gegensatz zu dichotomen Testdaten 
sind die Summenscores bei mehrkatego- 
riellen, nominalen Daten also recht un- 
iibersichtlich. 



Die Idee quantitativer Modelle fiir solche 
Daten besteht darin, daB Personen mit 
einem hoheren Summenscore beziiglich 
einer Kategorie x auch einen hoheren Aus- 
pragungsgrad auf der entsprechenden Per- 
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sonenvariable aufweisen. Bei vier Ant- 
wortkategorien gibt es vier Personen- 
variablen, und der Scorevektor sagt etwas 
dariiber aus, wie diese Eigenschaften bei 
der betreffenden Person ausgepragt sind. 

Bevor man sich Gedanken uber die For- 
malisiemng eines entsprechenden Testmo- 
dells macht, ist es lohnenswert, sich einige 
Eigenschaften einer solchen Datenstruktur 
vor Augen zu fuhren. Diese Eigenschaften 
haben namlich weitreichende Implikatio- 
nen fur die Interpretation der Modell- 
parameter entsprechender Testmodelle. In 
dem Datenbeispiel addieren sich die vier 
Summenscores jeder Person stets zu 5, da 
es genau fiinf Items gibt und jede Person 
bei jedem Item nur eine Kategorie an- 
kreuzen darf. Generell gilt 
m 

(1) I r vx-k, 

x=0 

wenn r vx die Anzahl von Antworten in 
Kategorie x bei Person v bezeichnet. 

Das bedeutet, dab die Summenscores der 
Personen nicht unabhangig voneinander 
variieren konnen. Wenn man bei vier Ant- 
wortkategorien drei Summenscores kennt, 
so ergibt sich der vierte automatisch, wenn 
man die Anzahl der Items kennt. 

Solche Summenscores und die aus ihnen 
abgeleiteten MeBwerte bezeichnet man als 
ipsative Mefiwerte. 



Was sind ipsative MeBwerte? 

Ipsativ bedeutet ‘auf sich selbst bezogen’ 
(ipse = selbst), d.h. ipsative MeBwerte 
sagen nur etwas uber den relativen Aus- 
pragungsgrad einer Eigenschaft bezogen 
auf andere Eigenschaften innerhalb der- 
selben Person aus. 



Nehmen wir als Beispiel wieder den Attri- 
butionsfragebogen mit vier Antwortkate- 
gorien, so sagt die Haufigkeit, mit der ex- 
tern-stabile Attributionen vorgenommen 
werden, nur etwas iiber den Auspragungs- 
grad dieses Attributionsstils relativ zu den 
anderen drei Attributionsstilen dieser Per- 
son aus. Dies ist deshalb so, weil bei einer 
Itemantwort in einer Kategorie die anderen 
Attributionstendenzen gar nicht mein - die 
Chance haben sich zu manifestieren. 

Hat man z.B. bei 10 Items neunmal extern 
stabil attribuiert, so besagt der Summen- 
score 9 lediglich, daB der extern-stabile 
Attributionsstil bei dieser Person relativ zu 
den anderen drei Attributionsstilen recht 
stark ist. Wie stark jeder der Attribu- 
tionsstile ‘wirklich' ist, konnte sich nur 
zeigen, wenn alle vier Reaktionen gleich- 
zeitig geauBert werden konnten und nicht 
die Wahl einer Alternative zugleich die 
Wahl der jeweils anderen unterdrucken 
bzw. unmoglich machen wiirde. 



Das Gegenstuck zu ipsativen Messungen 
sind normative Messungen , bei denen der 
MeBwert etwas iiber den Auspragungsgrad 
einer Person relativ zu anderen Personen 
aussagt. Diese Unterscheidung bedeutet 
jedoch nicht, daB ipsative MeBwerte gar 
nicht zwischen den Personen interpretier- 
bar waren. Dies ware auch unsinnig, denn 
das Ziel einer Testvorgabe sind zumeist 
vergleichende Aussagen zwischen den 
Personen. Solche interindividuellen Ver- 
gleiche sind bei ipsativen MeBwerten je- 
doch komplizierter. 

So konnen stets nur relative Variablen- 
auspragungen zwischen den Personen 
verglichen werden, also z.B. die extern- 
stabile Attributionstendenz relativ zu den 
anderen drei Attributionstendenzen. Dies 
ist eine Eigenschaft ipsativer MeBwerte 
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und wird bei der Interpretation der 
Modellparameter des mehrdimensionalen 
Rasch-Modells zu beriicksichtigen sein. 



Eigenschaften ipsativer MeBwerte 

Ipsative MeBwerte haben weitere Eigen- 
schaften, die es zu beriicksichtigen gilt, 
wenn man sie mit statistischen Mitteln 
weiterverarbeiten will. So sind ipsative 
MeBwerte untereinander im Mittel stets 
negativ korreliert. Dies ergibt sich daraus, 
daB eine hohere Auspragung einer Varia- 
ble stets niedrigere Auspragungen der 
anderen Variablen bedingt. 

Man kann sogar die Hohe dieser kunstli- 
chen negativen Interkorrelation ipsativer 
MeBwerte bestimmen. Sie betragt namlich 
bei einer Anzahl von m+1 ipsativen MeB- 
werten im Mittel 

Korr = - — . 
m 

D.h. im Fall von vier Antwortkategorien 
sind die Summenscores untereinander im 
Durchschnitt zu -1/3, also -0.33 korreliert. 
Dies bedeutet eine sehr starke artifizielle 
Verzeixung der inhaltlich bedingten Inter- 
korrelationen der gemessenen Vaiiablen. 

Auch die Korrelationen ipsativer MeB- 
werte mit externen Vaiiablen, also z.B. die 
Validitdten dieser MeBwerte sind kiinst- 
lich verzerrt. So ist die Summe der Korre- 
lationen ipsativer MeBwerte mit einer 
anderen Variable gleich Null, wenn die 
Varianzen der ipsativen MeBwerte gleich 
sind. Das bedeutet z.B., daB, wenn 3 von 4 
ipsativen MeBwerten mit einem Kriterium 
positiv korrelieren, der vierte negativ mit 
diesem Kriterium korrelieren mufi, und 
zwar in der Hohe, die der Summe aller 
drei positiven Korrelationen entspricht. 



Im folgenden sollen jedoch nicht die Sum- 
menscores als MeBwerte betrachtet wer- 
den, sondern daraus abgeleitete Personen- 
parameter eines entsprechend verallge- 
meinerten mehrdimensionalen mehrkate- 
goriellen Rasch-Modells. 

Wie beim dichotomen Rasch-Modell (s. 
Kap. 3.1. 1.2.2) hangen auch hier die 
Antwortwahrscheinlichkeiten von der Dif- 
ferenz eines Personenparameters fur diese 
Kategorie, 0 VX , und eines Itemparameters 
fur diese Kategorie, o lx , ab, d.h. 

(2) p(x vi =x) = f(e vx -a lx ). 

Die Itemparameter 0 ix drucken die 
Schwierigkeit von Item i aus, eine Ant- 
wort in Kategorie x zu provozieren, also 
eine kategorienspezifische Itemschwie- 
rigkeit. Die Personenparameter 0 VX 
drucken die Tendenz der Person aus, 
Antworten in Kategorie x zu geben, also 
die ‘Fahigkeit’ oder Eigenschaft der 
Person, Antworten der Kategorie x zu 
produzieren. 

Wie beim dichotomen Modell laBt sich die 
Funktion f in Gleichung (2) iiber die 
Logits der Antwortwahrscheinlichkeiten 
spezifizieren. Im Fall von nur 2 Antwort- 
kategorien ist ein Fogit als der Foga- 
rithmus des Quotienten aus Wahrschein- 
lichkeit und Gegenwahrscheinlichkeit de- 
finiert (vgl. Kap. 3.1. 1.2.2). Im Fall von 
mehreren Antwortkategorien wird der 
Quotient aus der Wahrscheinlichkeit einer 
Kategorie x zur Wahrscheinlichkeit einer 
festen Referenzkategorie, z.B. der 0- 
Kategorie gebildet. Nimmt man an, daB 
diese Fogits gleich der Differenz von 
Personen- und Itemparameter sind. 
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p(x vi = x) 

(3) log -7— -y = 0 V x-Oix. 

Pl x vi =°J 



so ergibt sich nach einigen Umfomiungen 
die Modellgleichung des mehrkategoriel- 
len Rasch-Modells. Auf die algebraische 
Ableitung soil an dieser Stelle verzichtet 
werden, da sie in Kapitel 3.3.1 fur das 
ordinale Rasch-Modell wiedergegeben ist. 



Statt dessen wird die Modellgleichung im 
folgenden mittels einer ‘Plausibilitatsiiber- 
legung’ abgeleitet. Gleichung (3) besagt, 
daB die Kategorienwahrsehcinliehkeit 
gleich der Exponentialfunktion der Para- 
meterdifferenz ist, wobei diese jedoch 
noch mit einer Unbekannten zu multi- 
plizieren ist, namlich mit p(X vi = 0) : 

(3' ) p(x vi = x) = exp(e vx - o ix ) ■ p(x vi = o). 



Diese ‘Unbekannte’ ist dann keine Unbe- 
kannte mehr, wenn man die Wahrschein- 
lichkeiten der anderen Kategorien, x = 1 bis 
x = m, kennt, denn es muB gelten: 

(4) X P\ x vi = x) = 1 . 

x=0 



Tatsachlich wiirde man bei einer detail- 
lierten Ableitung der Modellgleichung aus 
Gleichung (3’) sehen, daB die einzige 
Funktion dieser 'Unbekannten’ darin be- 
steht, sicherzustellen, daB die Summe der 
iiber die Exponentialfunktion definierten 
Kategorien wahrsehcin I iehkei ten 1 ergibt. 
Dies kann man jedoch auch durch einen 
einfachen Trick erreichen, indem man 
namlich die Exponentialfunktion der Para- 
meterdifferenz durch die Sunmie dieser 
Ausdrucke iiber alle Kategorien dividiert: 



(5) p(x vi = x) 



exp(9v X -g ix ) 

X ex p( 0 vs-°is) 

s=0 



Der Nenner in Gleichung (5) wirkt wie 
eine Normierungskonstante, die sicher- 
stellt, daB sich die Ausdrucke iiber alle 
Antwortkategorien zu 1 addieren, d.h. es 
gilt 



m exp(e vx -a ix ) ^ 

2j m , _ ' 

X “° X ex p( 0 vs- a is) 
s=0 



Den Nenner kann man getrost als Normie- 
rungskonstante bezeichnen, da er nicht von 
den Daten abhdngt. Er ist fiir jede Person 
und jedes Item allein durch deren Parame- 
ter definiert und hangt nicht davon ab, 
welche Kategorie die Person bei diesem 
Item angekreuzt hat. Dementsprechend 
taucht der Index x als Code der ange- 
kreuzten Kategorie auch nicht im Nenner 
auf; es wird vielmehr iiber alle Auspra- 
gungen der Antwortvariable summiert 
(Sununationsindex ; s). 

Was hier als ‘Trick’ ausgegeben wurde, um 
die A nt wort wait rse he i n I ich ke i te n zu nor- 
mieren, hat bewirkt, daB die Antwortwahr- 
scheinliclikeit einer Kategorie x nun doch 
von den Personen- und Itemparametem 
alter Kategorien abhangt. Die Parameter 
der anderen, nicht gewahlten Antwortkate- 
gorien tauchen im Nenner von (5) auf und 
beeinflussen auf diese Weise die Wahr- 
scheinlichkeit der gewahlten Antwortka- 
tegorie. 

Die Wahrschcinlichkeit einer Antwort in 
Kategorie x hangt also nicht nur davon ab, 
wie stark die diesbeziigliche Eigenschafts- 
auspragung der Person ist, sondem auch 
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davon, wie schwach die anderen Eigen- 
schaftsauspragungen sind. 

Formel (5) stellt die Modellgleichung des 
mehrdimensionalen Rasch-Modells dar, 
die jedoch um drei weitere Parameter- 
nomiierungen erganzt werden muB. 

Die erste dieser Normierungen ergibt sich 
wiederum im Riickgriff auf das dichotome 
Rasch-Modell. Dort kann die Antwortva- 
riable die beiden Werte 0 und 1 anneh- 
men, es gibt jedoch nicht zwei Parameter 
fur jedes Item, sondem lediglich einen. 
Eine der beiden Antwortkategorien stellt 
die Referenzkategorie dar, auf die die Ant- 
worttendenz hinsichtlich der anderen 
Antwortkategorie bezogen ist (s. Kap. 
3 . 1 . 1 . 2 . 2 ). 

Entsprechend gibt es im mehrkategoriellen 
Fall nicht m+1 Parameter fiir jedes Item, 
sondern lediglich m. Eine (beliebige) Ka- 
tegorie muB die Rolle der Referenz- 
kategorie spielen. Es werden auch hier 
(wie im dichotomen Modell) die Para- 
meter fur die Kategorie x = 0 auf den Wert 
0 gesetzt, d.h. es gilt 

( 7 ) (7 i0 = 0 fiir alle i. 

Als zweite Normierung ist - wie im 
dichotomen Rasch-Modell - eine Sum- 
mennormierung der Itemparameter erfor- 
derlich. Man kann sich die Notwendigkeit 
fiir eine solche Normierung dadurch klar 
machen, daB man in Gleichung (5) zu den 
Itemparametern einer bestinmiten Kate- 
gorie eine Konstante c hinzu addieren 
kann, wenn man dieselbe Konstante 
gleichzeitig zu alien Personenparametem 
derselben Kategorie addiert. Dadurch wiir- 
de sich an den Exponenten in Gleichung 
(5) nichts andern, so daB man die Para- 
meter durch eine geeignete Normierung 



fixieren muB. In Analogic zum dichoto- 
men Modell gilt die folgende Summen- 
normierung: 

k 

(8) ^ a, x = 0 a U e x • 

i-1 

Das bedeutet, fiir jede Antwortkategorie 
miissen die Itemparameter dieser Normie- 
rung unterworfen werden, so daB man z.B. 
bei 10 vierkategoriellen Items nur 27 
unabhangige Itemparameter zu schatzen 
hat. 



Datenbeispiel: Itemparameter 

Die Analyse des Datenbeispiels ergibt 
die folgenden Schatzungen fiir die Item- 
parameter: 



°ix 


x = 1 


x = 2 


x = 3 


i = 1 


+.96 


-1.37 


+2.24 


i = 2 


-.32 


-.24 


-1.35 


i = 3 


+.36 


+.85 


-.13 


i = 4 


-.21 


+.86 


+.16 


i = 5 


-.79 


-.10 


-.92 



Wegen der Normierungen sind alle 
Parameter der O-ten Kategorie gleich 0, 
und die Itemparameter addieren sich in 
ieder Spalte dieser Tabelle ebenfalls zu 
Null. 

Dadurch sind zeilen- oder spaltenweise 
Vergleiche zweier Itemparameter von 
den anderen Itemparametern abhiingig 
und somit nicht spezifisch objektiv (vgl. 
Kap. 2.1.3). Stellt man z.B. fest, daB es 
beirn ersten Item um 1.28 Einheiten 
schwerer ist, Kategorie 3 anzukreuzen 
als Kategorie 1, so ist die Differenz 
wegen der Sunmiennormierung in jeder 
Spalte auch von den Parametern der 
anderen Items mitbestimmt. Ebenso ist 
die Feststellung, daB das Withlen einer 
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Okopartei fiir sehr ungeeignet 
(c >23 = -1.35), die Benutzung offentli- 

cher Verkehrsmittel fiir geeignet 
gehalten wird, die Umwelt zu schiitzen 
(cr 13 = 2.24), von den Parametern dieser 

beiden Items in der Normierungska- 
tegorie abhangig (also davon, wie haufig 
diese beiden Handlungen ausgefiihrt 
wurden). 

Spezifisch objektiv sind bei diesem 
Modell daher nur Vergleiche von Dif- 
fer enzen von Itemparametern, also Ver- 
gleiche, an denen vier Parameter betei- 
ligt sind. Man kann jedoch die zuvor 
genannten zeilen- oder spaltenweisen 
Parametervergleiche anstellen, wenn 
man dabei beriicksichtigt, dab es sich 
tatsachlich urn Vergleiche von Parame- 
terdifferenzen handelt: Vergleicht man 
die Parameter zweier Kategorien eines 
Items, so vergleicht man ‘in Wirklich- 
keit’ die Differenzen der beiden Parame- 
ter zu den beiden Mittelwerten alter 
Itemparameter dieser Kategorien, die 
wegen (8) gleich Null sind. Vergleicht 
man die Parameter zweiter Items 
beziiglich einer Kategorie, so vergleicht 
man ‘in Wirklichkeif die Differenzen der 
beiden Parameter zu den beiden Para- 
metern der Normiemngskategorie, die 
wegen (7) ebenfalls gleich Null sind. 

Die dritte notwendige Normierungsbedin- 
gung bezieht sich auf die Personenpara- 
meter. Im dichotomen Fall wird fiir zwei 
Antwortkategorien nur ein Personenpara- 
meter geschatzt. Entsprechend konnen im 
mchrkategoricllen Fall bei m+1 Katego- 
rien nur m unabhangige Personenpara- 
meter geschatzt werden. Das ergibt sich 
aus der Ipsativitdt der Mebwerte, die ja 
bewirkt (s.o), dab jeweils ein Mebwert 



vollig von der Sunmie der iibrigen Meb- 
werte abhangt. 

Wahrend dieses Problem im dichotomen 
Fall dadurch gelost wird, dab es fiir die 0- 
Kategorie keinen Personenparameter gibt, 
ist es im mchrkategoricllen Fall sinnvol- 
ler, die Summe aller Parameter einer Per- 
son gleich Null zu setzen, d.h. 

m 

(9) X ®vx = 0 fur alle v. 

x=0 

Damit drucken die Personenparameter 0 VX 

jeweils die Starke einer Antworttendenz 
relativ zur Ausprdgung der anderen Ant- 
worttendenzen aus. Ein einzelner Per- 
sonenparameter 0 VX beinhaltet daher zu- 
nachst eine intraindividuelle Aussage iiber 
die relative Starke dieser Verhaltens- 
tendenz innerhalb einer Person. Diese 
intraindividuellen Auspragungsgrade kon- 
nen jedoch auch interindividuell, d.h. iiber 
die Personen hinweg verglichen werden. 

Die Summennormierung wird hier ge- 
wahlt, um fiir jede Antwortkategorie einen 
Mebwert der Person zu erhalten. Anders 
als bei dichotomen Antworten gibt es bei 
mehrkategoriellen Antworten oft keine 
Kategorie, die sich als Referenzkategorie 
anbietet und auf deren Parameter man 
verzichten konnte (man denke z.B. an den 
Attributionsfragebogen, bei dem jede Ant- 
wortkategorie einem bestimmten Attribu- 
tionsstil entspricht). 

Auch im dichotomen Fall wird der Para- 
meter fiir die Kategorie x = 0 nicht einfach 
‘weggelassen’, sondern er ist faktisch 
gleich Null gesetzt worden. Dies wird er- 
sichtlich, wenn man das dichotome Mo- 
dell als Spezialfall des mehrkategoriellen 
Modells (5) aufschreibt: 




190 



3. Testmodelle 



p(x vi = i) = 

exp(o vl - a;]) 



Die ‘1' im Nenner des dichotomen Rasch- 
Modells kommt namlich dadurch zustan- 
de, daB 0 vO und a,Q gleich Null gesetzt 
sind und sich somit exp(O) = 1 ergibt. 

Die unterschiedliche Normierung im 
dichotomen und polytomen Fall (polytom 
= mehrkategoriell) hat zur Folge, daB ein 
Personenparameter, der im dichotomen 
Modell z.B. 0 y = 1.8 betragt, im polyto- 

men Modell (angewandt auf dieselben 
dichotomen Daten) nur 0 v j = 0.9 betragt. 

Das liegt damn, daB es hier einen zweiten 
Parameter 0 v q = -0.9 gibt, der sich mit 

0 V 1 zu Null addiert. 

In ihrer Interpretation sind beide Ergeb- 
nisse identisch, denn die relative Antwort- 
tendenz der Person beziiglich Kategorie 1 
betragt stets 0 vl - 0 v q =1.8. 

Datenbeispiel: Personenparameter 

Im folgenden sind die Personenparame- 
ter fur 6 Personen wiedergegeben, die 
genau zweimal die Kategorie x = 0 (‘Habe 
ich schon getan bzw. tue ich bereits’) 
angekreuzt haben: 






Zunachst sieht man, daB sich die Para- 
meter zeilenweise zu Null addieren. 
Dann fallt auf, daB die Personen 4 und 5 
dieselben Parameter erhalten. Das liegt 
daran, daB beide Personen dieselben 
Summenscores r vx haben, namlich je 2- 

mal die ‘O' und die ‘1’ und einmal die ‘2’ 
angekreuzt haben. 

Der Parameter fur x = 0 ist bei den ande- 
ren Personen jedoch unterschiedlich, ob- 
wohl alle Personen diese Kategorie 
gleich oft angekreuzt haben. Da diese 
Personen die underen Kategorien unter- 
schiedlich oft angekreuzt haben, ist 
auchihre Antworttendenz bzgl. Kategorie 
0 im intraindividuellen Vergleich unter- 
schiedlich stark: sie ist bei Person 6 am 
schwachsten, da diese Person jede an- 
dere Kategorie auch einmal angekreuzt 
hat. Sie ist bei Person 1 am starksten, da 
diese Person zwei andere Kategorien 
uberhaupt nicht angekreuzt hat und 
daher stark negative Verhaltenstenden- 
zen hinsichtlich dieser beiden Kategorien 
hat. 

Korreliert man die 4 MeBwerte iiber alle 
800 befragten Personen miteinander, so 
ergibt sich folgende Korrelationsmatrix: 





0 V 1 


®v2 


0 V 3 


0 vO 


-.39 


-.23 


-.43 


9vl 




-.46 


-.32 


®v2 






-.14 



Der Mittelwert dieser 6 Korrelationsko- 
effizienten betragt genau -J /3 = -0.33, 
wie es fur 4 ipsative MeBwerte zu erwar- 
ten ist (s.o.). Obwohl alle Korrelationen 
negativ verzerrt sind, lassen sie sich doch 
relativ zueinander interpretieren. So ist 
der starkste positive Zusammenhang 
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(wenn man den Bias von -0.33 wieder 
abzieht; Bias = systematische Verzeixung) 
zwischen den Verhaltenstendenzen 
beziiglich der Kategorien 2 und 3: 
-.14+. 33 = +.19. Diese beiden Ant- 
wortaltemativen bieten zwei unterschied- 
liche ‘Rationalisierungen’ fur fehlendes 
Umwelthandeln an (‘die Bedingungen sind 
nicht gegeben' und ‘die MaBnahme ist un- 
geeignet’), so daB ein positiver Zusam- 
menhang plausibel ist. 

SchlieBlich ist es auch aufschluBreich, 
diese Ergebnisse mit deni Ergebnis der 
Klassenanalyse derselben Daten in Be- 
ziehung zu setzen. Die folgende Tabelle 
zeigt die Mittelwerte der 4 Personen- 
meBwerte 0 VX fur die Mitglieder der 3 
latenten Klassen (vgl. Kap. 3.2.1): 





0v0 


0vl 


0v2 


0v3 


Klasse 1 


-.50 


1.78 


-.57 


-.72 


Klasse 2 


-.15 


-.64 


-.03 


.81 


Klasse 3 


1.59 


.26 


-.52 


-1.34 



Klasse 3 war die Klasse der ‘Handelnden’ 
und entsprechend ist hier die Verhaltens- 
tendenz der Kategorie 0 am starksten aus- 
gepragt. Klasse 1 war die Klasse der Per- 
sonen, die sozial erwiinscht (?) antworten: 
‘kann ich mir gut vorstellen’ . Die entspre- 
chende Verhaltenstendenz hat hier den 
groBten Mittelwert (1.78). Klasse 2 
schlieBlich sind die ‘Rationalisiere? mit 
starker Tendenz zu Kategorie 2 und 3. 
Insgesamt fiihren das klassifizierende und 
das quantifizierende Testmodell zu ahn- 
lichen Ergebnissen, auch wenn sie die 
interindividuellen Unterschiede selir unter- 
schiedlich reprasentieren. 



Die Abhangigkeit der Antwortwahrschein- 
lichkeiten von der latenten Dimension 
wurde bei dichotomen Testmodellen mit 
Hilfe der Itemcharakteristiken oder Item- 
funktionen dargestellt. Diese Itemfunk- 
tionen sind fur das mehrdimensionale 
Rasch-Modell schwieriger darzustellen, da 
jeweils mehrere Parameter pro Item und 
pro Person variieren. 



p(x) 




Abbildung 84: Die Itemfunktionen eines vierkate- 
goriellen Items mit den Parametern (7,0 = +1.0, 
a i( = 0.0, 0 j 2 = -1.0 und O i3 = -2.0 
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Abbildung 84 zeigt die Abhangigkeit der 
Antwortwahrscheinlichkeiten von den Per- 
soncnvariablen 0 VX fur ein vierkatego- 
rielles Item. Die Abbildung besteht aus je 
einer Graphik fiir jede latente Variable 
0 VX , in denen jeweils 4 Kurven einge- 
zeichnet sind, namlich eine fiir jede 
Antwortkategorie . 

In jedem der vier Bilder variiert genau 
eine Personenvariable 0 VX , wahrend die 
Auspragungen der 3 anderen Variablen als 
untereinander gleich stark angenommen 
werden. Wegen der Normierungsbedin- 
gung (9) bedeutet das im Falle des 
obersten Graphen, dab fiir 0 v j bis 0 v3 gilt: 

0 VX = — ,x>0. 

So addieren sich die 4 Mebwerte stets zu 
Null. In alien 4 Graphen steigt die Wahr- 
scheinlichkeit einer Antwort in deijenigen 
Kategorie, deren Personenparameter vari- 
iert wird, monoton an. Demgegeniiber fal- 
len die Wahrscheinlichkeiten der drei 
iibrigen Kategorien monoton ab. 



Die Eigenschaft von Rasch-Modellen, dab 
die Summenscores die gesamte Informa- 
tion ausschopfen (vgl. auch Kap. 
3. 1.1. 2.2), zeigt sich wiederum in der 
Likelihoodfunktion der Daten fiir dieses 
Modell. 



Die Likelihood der gesamten Datenmatrix 
ergibt sich durch Multiplikation iiber alle 
Items und alle Personen, d.h. sie ist durch 
folgende Gleichung definiert 



N k exp(0 vx -a lx ) 

do)L=nn m - — 

v-t i-! £exp(0 vs -c is ) 



s=0 



exp 



XX e vx -IX a i> 



V v 



V 1 J 



nn x ex P (0 vs -0 is ) 

v i s=0 
f \ 

ex P X r vx ®vx — X n ix ^ix 

^_V j 

m 

nn X exp(0 vs -a is J 

v i s=0 



Die Itemparameter G 1X drucken sich in der 
Lage dieser Kurven bzgl. der Abszisse und 
in ihrem Abstand voneinander aus: Je 
grober G 1X ist, desto schwerer fallt eine 
Antwort in diese Kategorie und desto 
weiter rechts liegt die monoton steigende 
Kurve. Bei den monoton fallenden Kurven 
verlaufen die Kurven umso flacher je 
grober der Schwierigkeitsparameter der 
Kategorie ist. 

Die Verlaufe dieser Itemfunktionen sind 
zwar etwas komplizierter nachzuvoll- 
ziehen, entsprechen aber letztlich den 
Erwartungen. 



Es zeigt sich, dab die Likelihood der 
Daten lediglich von der Haufigkeit n ix , 

mit der bei Item i die Kategorie x gewahlt 
wurde, und der Haufigkeit r vx , mit der 
Person v Kategorie x gewahlt hat, ab- 
hangt. 

Bei welchen Items die r vx Antworten in 
Kategorie x fallen, spielt keine Rolle, so- 
fern das Modell gilt. Anders ausgedruckt: 
wenn das Modell gilt, so kann man sicher 
sein, dab die Antwortmuster keine zusatz- 
liche diagnostische Information iiber die 
Personen enthalten. 

Mochte man in einem Test mit nominalen 
Antwortkategorien die Antworthaufigkei- 
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ten in einer bestimmten Kategorie als 
Indikator fiir die Auspragung einer ent- 
sprechenden Personeneigenschaft interpre- 
tieren, so sollte man daher zuvor priifen, 
ob das mehrdimensionale Rasch-Modell 
auf die Daten pa lit. 

Mit der Tatsache, dab die Summenscores 
r vx die gesamte Information iiber die Per- 
sonenparameter 0 VX enthalten, ist ein Pro- 
blem verbunden, das unter anderem auch 
fiir die seltene Anwendung dieses Test- 
modells verantwortlich ist. Hat namlich 
eine Person in dem Test eine oder mehrere 
Antwortkategorien bei keinem Item ange- 
kreuzt, d.h. ist ein Score r vx = 0, so laBt 
sich der Auspragungsgrad der zugehorigen 
Personeneigenschaft nur mit Hilfe von 
Zusatzannahmen emiitteln. 

Rein rechnerisch wiirde sich fiir diese 
Person eine Auspragung von minus un- 
endlich 0 VX = auf dieser Variable er- 

geben, da sie diese Kategorie im Vergleich 
zu den anderen Kategorien ‘unendlich 
selten’ namlich ‘nie’ angekreuzt hat. Dies 
allein ware nicht weiter tragisch, man 
rniiBte nur in Kauf nehmen, daB fiir einige 
Personen die MeBwerte beziiglich einzel- 
ner Kategorien fehlen. Die Nomiierungs- 
bedingung (9) fuhrt aber dazu, daB wenn 
ein Parameter betragt, alle anderen 
Parameter + °° werden bzw. gar nicht de- 
finiert sind. 

Die Konsequenz, auf jede Person zu ver- 
zichten, die in mindestens einer Kategorie 
nie geantwortet, d.h. den Score Null hat, 
ist nicht praktikabel. In unserem Daten- 
beispiel sind es immerhin 701 von 800 
Personen, die mindestens einen Score 
gleich Null haben (was hier allerdings an 
der kleinen Itemanzahl liegt). 

Bei der Anwendung dieses Testmodells 
sollten daher mittels geeigneter Verfahren 



(vgl. Kap. 4.2.1) alle Personenparameter 
geschatzt werden. Hieifiir ist schon ein 
einfacher ‘Trick’ ausreichend, indem man 
namlich alle Nullscores, d.h. alle r vx = 0, 
bei der Parameterschatzung auf 0.1 setzt. 
Mit diesem Trick wird die Empirie 
dahingehend verfalscht, daB angenommen 
wird, die Person hatte bei einem ‘zehntel’ 
Item die Kategorie x angekreuzt. Die o.g. 
Ergebnisse des Datenbeispiels wurden auf 
diese Weise berechnet. 

Literatur 

Das mehrdimensionale Rasch-Modell geht 
auf Rasch (1961) zuriick und wurde von 
Andersen (1974) und Fischer (1974, 
1995b) beschrieben. Fischer & Spada 
(1973) haben es auf den Rorschachtest 
angewendet. Kelderman & Rijkes (1994) 
beschreiben das Modell als log-1 ineares 
Modell und Thissen & Steinberg (1984) 
diskutieren ein mehrdimensionales Modell 
mit einem zusatzlichen, multiplikativen 
Parameter. Hicks (1970) hat die Eigen- 
schaften ipsativer MeBwerte ausfuhrlich 
dargestellt und Rost (1983) diskutiert 
diese Eigenschaften in Bezug auf Interes- 
sentests. 



Ubungsaufgaben 

1. Wieviele unterschiedliche Scorevekto- 
ren gibt es im Datenbeispiel, die keinen 
Nullscore enthalten? 

2. Welches der 5 Beispielitems ist am an- 
falligsten dafiir, sozial erwiinscht be- 
antwortet zu werden, wenn man davon 
ausgeht, daB die zweite Antwortalter- 
native diese Tendenz ausdruckt? 

3. Welche Personenparameter erhalt 
eine Person mit dem Scorevektor 
r v = (2, 1, 1, 1)? Welcher Antwortvektor 
ist bei dieser Person am wahrschein- 
lichsten? 
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3.3 Modelle fur ordinale 
Itemantworten 

Ordinale Daten stellen nach den dichoto- 
men Itemantworten sicherlich den haufig- 
sten Datentyp dar, der mit Tests und Fra- 
gebogen erhoben wird. In einigen Gebie- 
ten der Psychologie und der Sozialwissen- 
schaften stellen ordinale Daten wahr- 
scheinlich sogar den hdufigsten Datentyp 
dar. Dies ist auch berechtigt, denn 
menschliche Reaktionen auf Itemvorgaben 
konnen sicherlich differenzierter ausge- 
druckt werden als nur mit einer Ja-Nein- 
Antwort, und es entspricht einfachen Ko- 
sten-Nutzen-Uberlegungen, die Itemant- 
wort so differenziert wie moghch zu erhe- 
ben und auch entsprechend auszuwerten. 

In diesem Kapitel werden daher die wich- 
tigsten Testmodelle fiir dichotome Item- 
antworten auf den Fall ordinaler Itemant- 
worten verallgemeinert. Es handelt sich 
dabei durchweg um Verallgemeinerungen, 
so dab sich die entsprechenden dichoto- 
men Testmodelle stets fiir den Spezialfall 
nur zweier ‘ordinaler’ Antwortkategorien 
‘automatisch’ ergeben. 

Kapitel 3.3.1 behandelt die Verallgemei- 
nerung des Rasch-Modells fiir ordinale 
Daten, Kapitel 3.3.2 einige Spezialfalle 
dieses Modells fiir Tests mit einer Rating- 
skala als Antwortformat. In Kapitel 3.3.3 
ist die Klassenanalyse fiir ordinale Daten 
dargestellt und Kapitel 3.3.4 behandelt 
wiederum spezielle Modelle fiir Rating- 
skalen. Kapitel 3.3.5 geht auf die Verall- 
gemeinemng des mixed Rasch-Modells 
ein. 

Viele Testmodelle, die in Kapitel 3.1 fiir 
dichotome Daten dargestellt wurden, wer- 
den in diesem Kapitel in ihrer Verallge- 



meinemng fiir ordinale Daten nicht be- 
handelt. Hierzu gehoren Modelle mit 
stufen- oder kastenformigen Itemfunktio- 
nen, sowie die sog. nicht-parametrischen 
Modelle, aufbauend auf der Mokken- 
Analyse. Auch Modelle mit nicht-mono- 
tonen Itemfunktionen, sog. Unfolding- 
Modelle, mehrparametrige Modelle im 
Sinne der item-response Theorie, sowie 
Modelle, die auf der linearen Itemfunktion 
der sog. klassischen Testtheorie aufbauen, 
werden hier nicht in ihrcn ordinalen Ver- 
allgemeinerungen behandelt. 

Diese Auswahl ist zum Teil durch den 
Stand der Modellentwicklungen und durch 
die Verfiigbarkeit geeigneter Computer- 
programme begriindet. Zum Teil spiegelt 
die Auswahl eine subjektive Einschatzung 
der Bedeutung und Brauchbarkeit der 
verschiedenen Modelle fiir die Praxis der 
Testentwicklung wider. Wahrend viele 
Annahmen iiber das Antwortverhalten in 
Tests und Fragebogen mit mchrstufigen 
Antworten in den hier behandelten 
Modellen Beriicksichtigung finden, stellt 
die Auslassung mehrkategorieller Unfol- 
ding-Modelle (vgl. Kap. 3. 1.1.3) eine 
schmerzliche Liicke dar. 

Die Annahme der Thurstone-Skaliemng 
bei der Messung von Einstellungen (vgl. 
Kap. 2.2.2.6) ist eine echte Konkurrcnz 
zur Annahme der Likert-Skalierung, so 
dab es gerade fiir die Auswertung von 
Fragebogen mit mchrstufigen Antworten 
wiinschenswert ware, beide Methoden zur 
Verfiigung zu haben. Die Auswertung von 
Fragebogen mit nicht-parametrischen 
mehrkategoriellen Unfolding-Modellen ist 
besonders durch die Arbeiten von 
Wijbrandt van Schuur (s. z.B. v. Schuur 
1993, 1996) weit fortgeschritten, wahrend 
die entsprechenden parametrischen Model- 
le (Andrich 1995, Rost & Fuo 1995) noch 
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in den Kinderschuhen stecken. Eine 
spatere Auflage dieses Lehrbuchs sollte 
diese Liicke schlieBen. 

In den Unterkapiteln von Kapitel 3.1. wur- 
de jeweils auf Literatur zu den mehrkate- 
goriellen Verallgemeinerungen der dort 
behandelten Testmodelle verwiesen, so- 
fem diese nicht im folgenden dargestellt 
sind 



Datenbeispiel 

Als Datenbeispiel fur dieses Kapitel 
dienen 5 Items aus dem Personlichkeits- 
fragebogen NEOFFI von Borkenau und 
Ostendorf (1991). Diese 5 Items geho- 
ren zu insgesamt 12 Items, die die 
Personlichkeitseigenschaft ‘Neurotizis- 
mus’ erfassen sollen. Sie lauten: 

1. Ich fiihle mich oft angespannt und 
nervos. 

2. Manchmal fuhle ich mich vollig 
wertlos. 

3. Zu hdufig bin ich entmutigt und will 
aufgeben, wenn etwas schiefgeht. 

4. Ich bin selten traurig ocler depri- 
miert. 

5. Ich fUhle mich oft hilflos und 
wttnsche mir eine Person, die meine 
Probleme lost. 

Die Aussagen sind im Originalfragebo- 
gen auf einer 5-stufigen Ratingskala mit 
den Kategorien: 

0: vollig unzutreffend 
1: unzutreffend 
2: weder nocli 
3: zutreffend 
4: vollig zutreffend 

einzuschatzen. Aus Griinden, die im 
Laufe des Kapitels 3.3.1 deutlich wer- 
den, ist jedoch ein 4-stufiges Antwort- 
format bei diesem Test besser geeignet 
eine quantitative Dimension zu messen. 



Fur die Beispielrechnungen wurden bei 
den Originaldaten daher die Kategorien 
1 (‘unzutreffend') und 2 (‘weder noch’) 
zusammengelegt, so daB die folgende 4- 
stufige Antwortvariable resultiert: 

0: vollig unzutreffend 
1: unzutreffend - weder noch 
2: zutreffend 
3: vollig zutreffend 

Zudem wurde das vierte Item umgepolt, 
da es negativ formuliert ist. Bei diesem 
Item bedeutet also eine ‘O’: vollig zu- 
treffend, eine T: zutreffend u.S.w. 

Die Beispieldaten umfassen 1000 Per- 
sonen aus einer groBeren Stichprobe der 
Testautoren (Borkenau und Ostendorf 
1991). Die Kategorienhaufigkeiten lau- 
ten: 





i=l 


i=2 


i=3 


i=4 


i=5 


0 


57 


182 


153 


48 


189 


X = 1 


510 


471 


605 


512 


586 


2 


321 


266 


192 


351 


169 


3 


112 


81 


50 


89 


56 



Ubungsaufgabe 

Geben Sie die Reihenfolge der Itemnum- 
mem an, wenn man die Items nach auf- 
steigender Schwierigkeit ordnet. Geben 
Sie an, welche Definition von ‘Item- 
Schwierigkeit’ Sie dabei verwendet haben. 
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3.3.1 Das ordinale Rasch-Mo- 
dell 

In Kapitel 3.1 iiber dichotome Testmo- 
delle stellte das Konzept der Itemfunktion 
ocler Itemcharakteristik ein zentrales Kon- 
zept dar, um Testmodelle zu definieren. 
Die Itemfunktion gibt die Abhangigkeit 
der Ldsungswahrseheinlichkeit eines 
Items von der latenten Variable an. Mittels 
der Itemfunktion konnten jeweils die 
zentralen Modellannahmen graphisch ver- 
anschaulicht und verschiedene Modelle 
miteinander verglichen werden. 

Die verschiedenen Kurvenverlaufe, die in 
Kapitel 3.1 als Itemfunktionen gezeichnet 
wurden, stellen bei naherer Betrachtung 
nur Kategorienfunktionen dar, denn sie 
definieren die Abhangigkeit der Antwort- 
wahrsehcinliehkcit einer Kategorie (nam- 
lich der 1-Kategorie) von der latenten 
Variable. Fiigt man dem Bild noch die 
Funktion fur die O-Kategorie hinzu, so er- 
halt man mit den beiden Kategorienfunk- 
tionen ein Gesamtbild, das man ‘Item- 
funktion’ nennen konnte, da es die beiden 
Antwortwahrscheinlichkeiten eines Items 
charakterisiert. 




Abbildung 85: Die beiden Kategorienfunktionen 
eines zweikategoriellen Items mit Schwierigkeit 
<Tj=l .5 

Im zweikategoriellen Fall ist die zweite 
Kategorienfunktion (fiir die O-Kategorie) 



redundant, da sie der an einer horizontalen 
Geraden gespiegelten Funktion fiir die 1- 
Kategorie entspricht. Dies ist so, da sich 
beide Wahrscheinlichkeiten an jedem 
Punkt des latenten Kontinuums zu 1 ad- 
dieren miissen. 

Wahrend es im zweikategoriellen Fall also 
iiberfliissig ist, beide Kategorienfunktio- 
nen zu zeichnen, kann man die Itemfunk- 
tionen fiir mehrkategorielle ordinale Item- 
antworten nur verstehen, wenn man sich 
die Abhangigkeit jeder Kategorienwahr- 
scheinlichkeit von der latenten Personen- 
variable anschaut. Wie solche Kategorien- 
funktionen ordinaler Daten aussehen, wird 
im folgenden dargestellt. 

Abbildung 85 zeigt, dab mit zunehmen- 
dem Wert der Personeneigenschaft die 
Wahrscheinlichkeit, in Kategorie 0 zu ant- 
worten, kontinuierlich absinkt und gleich- 
zeitig die WalTrscheinliclikeit fiir eine 1- 
Antwort ansteigt. 

Stellt man sich nun vor, dab es zwischen 
der O-Kategorie und der 1-Kategorie noch 
eine dritte, mittlere Kategorie gibt, und 
benennt man die drei Kategorien mit den 
Ziffern 0, 1 und 2, so ist folgender Kur- 
venverlauf zu erwailen: Zunachst domi- 
niert die Walirscheinlichkeit fiir eine 0- 
Antwort, welche aber mit steigender 
Eigenschaftsauspriigung absinkt. Im mitt- 
leren Bereich der Eigenschaftsauspriigung 
steigt sodann eine Kurve an, die die 
Wahrscheinlichkeit fiir die mittlere, also 
die 1-Antwort definiert, die aber nicht 
monoton ist. Sie sinkt vie I inch r wieder ab, 
weil im oberen Eigenschaftsbereich die 
Walirscheinlichkeit fiir eine 2-Antwort an- 
steigt. Dies ist in Abbildung 86 darge- 
stellt. 
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Abbildung 86: Die Kategorienfunktionen flir ein 
dreikategorielles Item 

Es ergibt sich in diesem Gedankenmodell 
ganz von selbst, dab die mittlere Antwort- 
kategorie eine nicht-monotone, eingipflige 
Kategorienfunktion haben muB, da es 
sowohl rechts als auch links von ihr eine 
andere Antwortkategorie gibt, deren Ant- 
wortwalirscheinlichkeit in der jeweiligen 
Richtung zunimmt. 

Dieses Prinzip laBt sich auch auf vier 
Antwortkategorien verallgemeinem, was 
in Abbildung 87 dargestellt ist. 




Abbildung 87: Die Kategorienfunktionen flir ein 
vierkategorielles Item 

Wiederum zeigt sich, daB die mittleren 
Antwortkategorien nicht-monoton ein- 
gipflig sind, w till rend die Extremkategori- 
en ill re monoton sinkende bzw. monoton 
steigende Kategorienfunktion beibehalten. 

Fur die Konstruktion eines Testmodells, 
das solche Kurven beschreibt, stellt sich 
die Frage, wie man die Kurvenschar para- 
metrisiert, d.h. welche Kennwerte des 
Kurvenverlaufs man als Modellparameter 



beriicksichtigt. Hier gibt es im Prinzip 
sehr viele Moglichkeiten. So konnte man 
die Fage und Hohe der Gipfelpunkte der 
mittleren Kategorien, die Breite der Hiigel 
fiir die mittleren Kategorien, den jeweils 
steilsten Anstieg jeder Kurve oder ahn- 
liches als Modellparameter vorsehen. Bei 
der Entscheidungsfindung kann wiederum 
die Betrachtung des zweikategoriellen 
Falles helfen. 

In Kapitel 3.1. 1.2.2 wurde dargestellt, daB 
der Itemparameter des Rasch-Modells dem 
Abszissenwert des Wendepunktes der logi- 
stischen Funktion entspricht. Der Wende- 
punkt ist zugleich auch der Punkt, in dem 
die 50%- Wahrscheinlichkeitsgrenze iiber- 
schritten wird, und auch der Punkt mit 
dem steilsten Anstieg (s. Abb. 85). Aus 
Abbildung 85 ist auch ersichtlich, daB es 
zugleich der Punkt ist, in dem sich die 
beiden Kategorienkurven uberschneiden. 

Mit anderen Worten, der Itemparameter 
markiert jenen Punkt auf der latenten Di- 
mension, der das latente Kontinuum in 
zwei Abschnitte zerteilt: Finks von diesem 
Schnittpunkt ist die Wahrscheinlichkeit 
fiir eine O-Antwort am hochsten, rechts 
davon die Wahrscheinlichkeit fiir eine 1- 
Antwort. 

Dieses Prinzip, daB die Modellparameter 
die Schnittpunkte der Kategorienfunktio- 
nen markieren, ist gut auf den mehrkate- 
goriellen Fall generalisierbar: Die Kurven- 
schnittpunkte segmentieren das latente 
Kontinuum hier nicht mehr nur in zwei 
Abschnitte, sondern in so viele, wie es 
Kategorien gibt. In jedem Abschnitt hat 
jeweils eine Antwortkategorie die relativ 
hochste Walirscheinliclikeit (s. Abb. 88). 
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A bbildung 88: Durch die Schnittpunkte definierte 
Abschnitte auf der latenten Dimension 



Hieran wird deutlich, wie in ordinalen 
Testmodellen mit den abgestuften Ant- 
wortkategorien umgegangen wird: Es wird 
versucht, die Antwortkategorien so auf die 
zu messende Personeneigenschaft zu pro- 
jizieren, daB jeder Kategorie ein Abschnitt 
auf der latenten Variable entspricht. Die 
GroBe oder Lange dieses Abschnittes 
kennzeichnet die Grofie der jeweiligen 
Antwortkategorie. 

In Abbildung 88 liegen die Schnittpunkte 
der Kategorie 2 dichter beieinander als die 
der Kategorie 1, d.h. ihr ist ein kleinerer 
Abschnitt auf dem Kontinuum zugeordnet. 
Kategorie 2 ist somit kleiner als Kategorie 
1 . 

Die Or drum g der Antwortkategorien 
schlagt sich darin nieder, daB ill re zuge- 
horigen Abschnitte entlang dem zu mes- 
senden Kontinuum geordnet sind: Der 
Abschnitt fiir eine hohere Antwortkatego- 
rie liegt stets weiter rechts, so daB eine ho- 
here Eigenschaftsauspragung fiir eine Ant- 
wort in dieser Kategorie erforderlich ist. 
Sind die Antwortkategorien entgegen der 
praexperimentellen Hypothese nicht ge- 
ordnet, so ergeben sich auch keine Ab- 
schnitte auf dem latenten Kontinuum, die 
die angenommene Ordnung widerspiegeln. 

Um diesen Fall graphisch nachzuvoll- 
ziehen, sei noch einmal darauf hinge- 



wiesen, daB die besagten Abschnitte auf 
der Abszisse durch die Schnittpunkte 
jeweils zweier benachbarter Kategorien- 
funktionen definiert sind. Eine Kategorie 
erhalt dann keinen ‘eigenen’ Abschnitt auf 
der Abszisse, wenn ihr Schnittpunkt mit 
der hoheren Kategorie links vom Schnitt- 
punkt mit der niedrigeren Kategorie liegt. 
Dies ist in Abbildung 89 dargestellt. 




Abbildung 89: Ein vierkategorielles Item mit un- 
geordneten Schnittpunkten 

In Abbildung 89 ist der Fall dargestellt, 
daB der Schnittpunkt der Kurve 0 mit Kur- 
ve 1 rechts vom Schnittpunkt der Kurve 1 
mit Kurve 2 liegt. Dies fiihrt dazu, daB 
Kategorie 1 keinen Abschnitt auf der 
Abszisse hat, in dem diese Kategorie mit 
relativ hochster Wahrscheinlichkeit ge- 
wahlt wird. Die Kategorien 0 oder 2 haben 
Uberall eine hohere Wahrscheinlichkeit als 
die zwischen ihnen liegende Kategorie 1. 
Hierin druckt sich aus, daB Kategorie 1 
‘nicht in Ordnung ist' oder ‘aus der Reihe 
tanzt’: Die Antwortkategorien lassen sich 
nicht derail auf die zu messende Personen- 
variable projizieren, daB aufeinander fol- 
genden Kategorien auch aufeinander fol- 
gende Abschnitte der Personenvariable 
entsprechen. 

Es laBt sich zusammenfassencl festhalten, 
daB mit der Parametrisierung der Schnitt- 
punkte benachbarter Kategorienfunktionen 
nicht nur die Grofie der Antwortkategorien 
ausgedruckt werden kann, sondern auch 
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nachgepriift werden kann, ob die Katego- 
rien iiberhaupt geordnet sind, d.h. ob die 
Itemantworten Ordinalskalenqualitat besit- 
zen oder nicht. 

Als Oberlcitung zur Formalisiemng dieses 
Testnrodells wird zunachst der Begriff der 
Schwelle eingefuhrt: Die Schnittpunkte 
zweier benachbarter Antwortkategorien 
definieren die Schwelle zwischen diesen 
Antwortkategorien. Die Abszissenwerte 
dieser Schnittpunkte definieren die Lage 
der Schwellen auf denr latenten Kon- 
tinuunr. Der Begriff der Schwelle soli 
suggerieren, dab an diesem Punkt auf denr 
Kontinuunr der Ubergang von einer Kate- 
gorie zur anderen stattfindet, d.h. die 
Wahrscheinlichkeit in der folgenden Ka- 
tegorie zu antworten von diesem Punkt an 
groBer wird als die Wahrscheinlichkeit, in 
der vorangegangenen Kategorie zu ant- 
worten. 

Auf der Schwelle selbst haben beide Ant- 
wortkategorien dieselbe Wahrscheinlich- 
keit, es steht also auf der Schwelle genau 
50 zu 50, in welche Kategorie die Antwort 
Mt. 

Um die ganze Kurvenschar der Kategori- 
enfunktionen festzulegen, nruB man nrit- 
tels einer geeigneten Funktion bestimmen, 
nrit welchen Wahrscheinlichkeiten die 
Schwellen uberschritten werden. Man be- 
notigt den Begriff der Schwellenwahr- 
scheinlichkeit und ein Modell, das 
die Schwellenwahrscheinlichkeiten be- 
schreibt. 



Was ist eine Schwellenwahrscheinlich. 
keit? 

Die Schwellenwahrscheinlichkeit q x laBt 
sich nrit Hilfe der beiden benachbarter 
Kategorien wahrscheinlichkeiten, p x _, und 
p x definieren. Und zwar ist die Schwel- 
Icnwahrschcinlichkcit nichts anderes als 
der relative Anted der ‘hoheren’ Kate- 
go ri e n wall rsc lie i n I i c h ke i t an beiden Kate- 
gorien wahrscheinlichkeiten: 

(1) q x =— Ex . 

Px-1 +Px 

Ist die Kategorie x wahrscheinlicher als 
die Kategorie x-1, so uberschreitet man 
die Schwelle nrit einer Wahrscheinlichkeit 
groBer als 0.5. Ist dagegen die links von 
der Schwelle gelegene Kategorienwahr- 
scheinlichkeit groBer, so uberschreitet man 
die Schwelle nrit einer Wahrscheinlichkeit 
kleiner als 0.5. 

Man kann die Sc h we 1 1 e n wa h rsc lie i n 1 i c h - 
keit auch als bedingte Wahrscheinlichkeit 
definieren, namlich als Wahrscheinlichkeit 
einer Antwort in Kategorie x unter der 
Bedingung, daB die Anwort in x-1 oder in 
x liegt: 

(!') q x = p(x|x-l oder x) 



Nach der Definition bedingter Wahr- 
scheinlichkeiten, sind beide Definitionen, 
(1) und (F), identisch. 



Auch bei dichotomen Itemantworten gibt 
es eine Schwelle - aber eben nur eine, 
namlich die zwischen Kategorie 0 und Ka- 
tegorie 1. Die Schwelle ist auch hier durch 
den Schnittpunkt der beiden Katego- 
rienfunktionen definiert (s. Abb. 85) und 
ill re Lage auf deni latenten Kontinuunr ist 
identisch nrit deni, was in Kapitel 3.1.1 
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die Lokation des Items genannt wurde. Tm 
dichotomen Fall ist die Schwellen- 
wahrscheinlichkeit gleich der Wahrschein- 
liclikeit einer 1-Antwort und somit durch 
die logistische Funktion des Rasch- 
Modells definiert, d.h. 



(2) Ovix 



exp(O v -Gj) 

1 + exp(6 v - a ; ) 



= p(x vi =i). 



Die Identitat von S e h we 1 1 c n wa h rse lie in - 
lichkeit und LOsungswahrscheinlichkeit 
eines dichotomen Items liegt daran, daB 
der Nenner der Sell we llenwahr scheinlich- 
keit (1) im dichotomen Fall stets gleich 1 
ist. 



Es liegt nahe, den Ansatz, fur die Schwel- 
lenwahrscheinlichkeiten die logistische 
Funktion des Rasch-Modells anzunehmen, 
auf den Fall ordinaler Daten zu iibertra- 
gen: 



(2) dvix 



cxp(e v — T,J 
l+exp(e v -T lx ) 



,x = 0,l...m . 



Der Itemparameter x (sprich: tau) hat in 
dieser Gleichung einen zweiten Index be- 
kommen, da jedes Item mehrere Schwel- 
len besitzt und jede Schwelle eine eigene 
Lokation (d.h. Lage auf dem latenten 
Kontinuum) hat. Diese wird durch den 
Parameter x ix definiert (x, das griechische 

‘t’, steht fiir die englische Bezeichnung von 
‘Schwelle’: threshold). 



Gleichung (3) besagt, daB die Schwellen- 
wahrscheinlichkeit einer Person v bei Item 
i von der Eigenschaftsauspragung dieser 
Person abhangt und von der Schwierigkeit 
der Schwelle bei diesem Item. 



Graphisch stellt sich diese Annahme so 
dar, daB es fiir jede Schwelle eines Items 
eine logistische Funktion gibt, die die 
Wahrscheinlichkeit dieser Schwelle defi- 
niert (s. Abb. 90). 




Abbildung 90: Die vier Schwellenfunktionen 
eines funfkategoriellen Items mit den Parametern 
tjj = -1.0, T i2 = 0.5, Xj 3 = 1.0 und = 2.0 



In dieser Abbildung sind die Abhangigkei- 
ten von vier Schwellenwahrscheinlichkei- 
ten von der latenten Personenvariable dar- 
gestellt, es handelt sich also um ein fiinf- 
kategorielles Item. 

Die Kurven drucken aus, daB die Uber- 
gangs wall rse heinliehkeite n mit wachsen- 
der Eigenschaftsauspragung ansteigen. 
Leichtere Schwellen liegen weiter links, 
schwerere Schwellen weiter rechts, so daB 
man fiir das Uberschreiten einer Schwelle 
zwischen zwei hoheren Kategorien auch 
einer hoheren Eigenschaftsauspragung be- 
darf. 

Rechnet man die in Abbildung 90 dar- 
gestellten Sc h we I Ic n wall rse heinliehkeite n 
in Kategorienwahrscheinlichkeiten um, so 
ergibt sich das folgende Bild: 




Abbildung 91: Die Kategorienfunktionen des in 
Abbildung 90 dargestellten Items 

Die Wendepunkte der Schwellenwahr- 
scheinlichkeiten in Abbildung 90 mar- 
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kieren genau die Schnittpunkte der Kate- 
gorienfunktionen in Abbildung 91. D.h. 
die Lokationen der Schwellen auf deni 
Kontinuum sind durch die Parameter x ix 
der Schwellenfunktionen in Formel (3) 
definiert. 

Lost man Gleichung (1) nach den Kate- 
goricnwahrschcinlichkeiten auf und setzt 
man fur die Schwellenwahrscheinlich- 
keiten Gleichung (3) ein, so ergibt sich die 
Modellgleichung fur das mehrkategorielle 
ordinale Rasch-Modell. Diese wird im 
folgenden abgeleitet. 



Ableitung 

Schwellenwahrscheinlichkeiten und Kate- 
gorienwahrscheinlichkeiten hangen laut 
Definition (1) wie folgt zusammen. 

q = Hx 

^ Px-l+Px 

x = 0,1. ..m . 

Die Auflosung der Gleichung nach p x er- 
gibt: 

(4) p x = q x Px-i + q x Px 
Px(i-q x ) = qx Px-i 
qx 

Px = Px-i r r^- 

d.h. jede Kategorienwahrscheinlichkeit p x 
st auf die vorangehende Kategorienwahr- 
scheinlichkeit p x _] und die dazwischen 
liegende S c h we 1 1 c n wa li rsc he i n I i c h ke i t q x 
zuriickzufuhren. Setzt man dies riickwarts 
gehend bis zur ersten Schwelle fort, sc 
ergibt sich ein sog. rekursives Glei- 
chungssystem 

q x -t 

p x-l= p x-2TT5^- 

bis 



das sich allgemein schreiben laBt: 



Da fur die S c h we 1 1 c n wall rsc he i n I i c h ke i te r 
die logistische Funktion (3) gelten soil. 



exp(0 v -T ix ) 




gilt fur deren Ge ge n wall rsc lie i n I i c h k e i t : 



(3') l-q x = 



l + exp(e v -T ix ) 



Setzt man beide Gleichungen in (5) ein, sc 
kiirzen sich die Nennerausdriicke der 
Schwellenwahrscheinlichkeiten heraus . 

und es ergibt sich eine relativ einfache 
Rekursionsformel 



exp(e v -T is ) 

/ _ __ A 1 + exp(---) 
(6) Px-Poll J 

1 + exp(---) 

=po n ex p( 0 v -^is) 



Po exp 



X K-'t.s) 

Vs=l 



Das Ergebnis dieser Ableitung besagt, dab 
die Wahrscheinlichkeit der Kategorie x auf 
die Wahrscheinlichkeit der O-ten Katego- 
rie und auf eine Exponentialfunktion der 
Modellparameter zumckzufiilnen ist. Glei- 
chung (6) laBt sich auch umschreiben zu 
einem linearen Logit-Modell 

(6') log^=X ( 0 v-x is ), 

™ s=l 
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das an die Ableitung des dichotomen 
Rasch-Modells (Kap 3.1. 1.2.2) und des 
mchrdimcnsionalen Rasch-Modells (Kap. 
3.2.2) erinnert. In diesem Fall hat sich das 
Logit-Modell (6’) als Resultat der 
Annahme logistischer Schwellenwahr- 
scheinlichkeiten (3) ergeben. 

Die rechte Seite von Gleichung (6’) lii6t 
sich vereinfachen, indem man sog. 
kumulierte Schwellenparameter (kumulie- 
ren = anhaufen) a ix einfiihrt: 

x 

^ix = X ^is 

S=1 

und die Summe der Personenparameter als 
Produkt schreibt: 

X 9 v = x0 v 

S=1 

Es ergibt sich dadurch: 

(6") log^- = x0 v -a ix . 

Po 

Aus dieser Gleichung lafit sich mit Hilfe 
der Nebenbedingung, dab sich alle Kate- 
gorienwahrscheinlichkeiten zu 1 addieren 
miissen 

m 

(7) XPx=l 

x=0 

die Modellgleichung ableiten. 

Ableitung 

Aufgrund von (7) ist 
m 

Po = 1 - X Px • 

X=1 

Fiir p x wird Gleichung (6) mit den neu 
eingefiihrten kumulierten Schwellenpara- 
metem eingesetzt 

(6"') P x = Po ex p( x0 v 




Prazisiert man p x als die Wahrschein- 
lichkeit einer Antwort von Person v bei 
Item i in Katgorie x, p(X vi ) = x, so stellt 

(8’) die Modellgleichung des ordinalen 
Rasch-Modells dar. Allerdings schreibt 
man den Nenner meist einfacher, indem 
man die Summe von 0 an laufen laBt und 
fiir die 0-te Kategorie Itemparameter ein- 
fiihrt, die gleich Null sind, 

CT;o = 0 fiir alle i. 

Sornit nimmt der erste Summand wegen 
exp(0 ■ 0 V + 0) = 1 den Wert 1 an und die 
Modellgleichung lautet: 

exp(x0 v - Oj x ) 

m , x 

X exp(s0 v -ctjsj 

s=0 
X 

mit Gix = X T is und a i0=°- 

s=0 



(8) p(x vi =x) 
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Modell (8) wird auch partial-credit Mo- 
dell genannt. Der Name kommt von der 
mehrkategoriellen Kodierung von Lei- 
stungstests, bei der man mit der Kodie- 
rung einer halb-richtigen ober fast-rich- 
tigen Antwort einen ‘partial credit’ ge- 
wahrt. 

Die Besonderheiten dieses Modells fiir 
ordinale Daten werden deutlich, wenn man 
es mit dem Rasch-Modell fiir nominale 
Itemantworten vergleicht (s. Kap. 3.2.2): 

e x p(9 V x-g ix ) 
m • 

S ex Pl e vs -^isi 
s=0 

Das ordinale Modell (8) geht aus Modell 

(9) durch die Restriktion 

(10) 9 vx = x0 v 
und 

x 

(11) gjx = S X is 

S=1 

hervor. Restriktion (10) besagt, dab die 
mehr dimensional e Personenvariable des 
nominalen Modells mittels einer einfachen 
linearen Funktion auf die eindimensionale 
Personenvariable des ordinalen Modells 
zuriickgefiihrt wird. 



Ein historischer Exkurs 

Wahrend schon Georg Rasch (1961) zeig- 
te, dab es sich um eine lineare Funktion 
handeln mub, wenn das Testmodell spezi- 
fisch objektive Mebwerte liefern soil, 
herrschte lange Zeit iiber die beiden mog- 
lichen Parameter einer linearen Funktion 

0 vx — <Px 0 v Vx ’ 

also iiber tp x und vp x (Phi und Psi) Un- 
klarheit. Angeregt durch eine Arbeit von 
Erling Andersen (1977) konnte David 



Andrich (1978a, b) zeigen, dab es sich bei 
dem multiplikativen Parameter nicht um 
einen zu schatzenden Modellparameter 
handelt, sondern um die Anzahl der 
Schwellen, die man von der O-ten bis zur 
x-ten Kategorie liberschreitet, also 

(Px = x - 

Die additiven Parameter \j/ x sind Be- 
standteil der Itemschwierigkeiten Crix, die 

nicht restringiert werden miissen (aber 
konnen, s. Kap. 3.3.2). 

Die Restriktion der Personenparameter 
(10) kann man sich so verstandlich 
machen, dab man fiir eine Antwort in Ka- 
tegorie x genau x-mal eine Schwelle iiber- 
schreiten mub und ebenso oft die Fahig- 
keit G v erfolgreich aktivieren mub. 

Die R rick full rung der Schwierigkeitspara- 
meter Oj x auf Schwellenparameter T jv 

die in Gleichung (11) ausgedruckt ist, 
stellt zwar keine Restriktion dar, da es ge- 
nauso viele unabhangige T-Parameter wie 
o-Parameter gibt. Sie ist aber bedeutsam, 
um den Modellparametern eine sinnvolle 
Interpretation zu verleihen. Die z-Para- 
meter definieren namlich die Lokation der 
Schwellen auf dem latenten Kontinuum, 
also die Schnittpunkte der Kategorien- 
funktionen (s. Abb. 91). 

Da die Schwellen bei ordinalen Antwort- 
kategorien auf dem latenten Kontinuum 
angeordnet sein sollten (s.o.), miissen auch 
die Parameter T 1X geordnet sein, d.h. die 
Parameter miissen von Kategorie zu Kate- 
gorie grober werden. Will man etwas iiber 
die Ordnung der Antwortkategorien oder 
deren Grobe erfahren, so mub man die 
dekumulierten Parameter T ix statt der ku- 
mulierten Parameter o ix interpretieren. 



(9) P (x vi = x) 
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Wall rend x ix die Schwierigkeit der x-ten 
Schwelle ausdriickt, bestimmt o ix die 
Schwierigkeit der x-ten Kategorie. Die 
Schwierigkeit einer Kategorie, CT; X , ent- 
spricht der Sumrne der Schwierigkeiten 
aller Schwellen, die man uberschritten hat, 
wenn man in Kategorie x antwortet. Die- 
ser Sachverhalt darf aber nicht zu dem 
Irrtum verleiten, die Kategorienwahr- 

scheinlichkeit p (X vi = x) hinge nur von 

den Schwellen ab, die uberschritten wur- 
den, also den unteren Schwellen 1 bis x. 

Der Nenner der Modellgleichung (8) hangt 
namlich von alien Schwellenparametern, 
also auch den holier liegenden ab, so dab 
die Schwellenschwierigkeiten der oberen 
Kategorien auch die Antwortwahrschein- 
liclikeiten der unteren Kategorien mitbe- 
stimmen. 



Der Antwortprozeb 

Die Rede von den Schwellen, die uber- 
schritten werden, wenn man in Kategorie x 
antwortet, suggeriert leicht, dab der Pro- 
zeb des Zustandekommens einer Itemant- 
wort ein unidirektionaler Prozeb (= in eine 
Richtung) ware: so als ginge man die 
Ratingskala wie die Stufen einer Treppe 
hinauf und bliebe dort stehen (antwortet 
dort) wo man nicht mehr weiter kann. 
Dieses Bild eines Antwortprozesses ist 
falsch, d.h. es trifft nicht auf das ordinale 
Rasch-Modell zu. 

Ein solcher Prozeb wiirde namlich bedeu- 
ten, dab die Schwierigkeit der hoheren 
Stufen (die man nicht mehr erreicht) 
keinen Einflub auf das Erklimmen der 
unteren Stufen hat. 



bei dem alle Schwellenschwierigkeiten be- 
stimmen, wo man landet: Ist eine hohere 
Schwelle schwierig, so erholit das die 
Wahrscheinlichkeit, dab man in den unte- 
ren Kategorien antwortet. Um bei dem 
Bild einer Treppe zu bleiben: Man sieht 
sich nicht nur die jeweils nachste Stufe an, 
sondem entscheidet anhand der Hohe aller 
Stufen, auf welche Stufe man sich stellt. 

Bei einer Ratingskala beeinflussen alle 
Antwortkategorien und deren Benennun- 
gen, wie wahrscheinlich eine Antwort in 
einer Kategorie ist. 



Die Normierungsbedingungen unterschei- 
den sich etwas vom mehrdimensionalen 
Modell. Dab die Itemparameter fur die 
erste Kategorie (x=0) gleich 0 gesetzt 
werden, ist geblieben bzw. wird auto- 
matisch dadurch sichergestellt, dab es fiir 
die O-Kategorie gar keine Schwelle und 
somit auch keinen Schwellenparameter 
gibt. 

Die Summennormierung liber alle Items 
hinweg erfolgt hier jedoch nicht kategori- 
enweise, sondern es ist die Sumrne aller 
Schwellenparameter gleich 0 zu setzen, 
d.h. 

k m 

02) I I X ix = 0 • 

i=l x— 1 

In einem Test mit 10 vierkategoriellen 
Items sind somit 29 unabhangige Schwel- 
lenparameter zu schatzen. 



Der Antwortprozeb, der zu Modell (8) 
pabt, ist vie I me hr ein simultaner Prozeb, 
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Datenbeispiel : Schwellenparameter 

Fiir das Datenbeispiel ergeben sich die 
folgenden Schwellenparameter (x ix -Pa- 
rameter): 





x = 1 


x = 2 


x = 3 


1 


-3.66 


0.14 


1.78 


2 


-2.01 


0.48 


2.11 


i = 3 


-2.41 


1.20 


2.51 


4 


-3.87 


0.06 


2.15 


5 


-2.09 


1.34 


2.27 



Es zeigt sich, dab bei alien Items die 
Schwellen in aufsteigender Reihenfolge 
geordnet sind, d.h. es wird, wie es bei 
ordinalen Daten zu erwarten ist, von 
Kategorie zu Kategorie schwieriger, die 
Schwelle zu iiberschreiten. 

Dabei ist die Distanz zwischen Schwelle 
1 und 2 stets groBer als zwischen den 
Schwellen 2 und 3. Dies ist ein Resultat 
der Zusammenlegung der zweiten und 
dritten Antwortkategorie (s.O. B esc lire i- 
bung des Datenbeispiels). Dadurch wird 
die (neue) zweite Antwortkategorie rela- 
tiv groB, so daB auch die sie begren- 
zenden Schwellen 2 und 3 weit aus- 
einander liegen. Das heiBt, es gibt einen 
recht groBen Abschnitt auf dem latenten 
Kontinuum, auf dem die zweite Katego- 
rie die hochste Wahrscheinlichkeit hat. 

Die urspriingliche zweite und dritte Ant- 
wortkategorie wurden iibrigens deswe- 
gen zusanmiengelegt, weil die Schwel- 
len fiir das originale 5-stufige Antwort- 
Format nicht geordnet waren. 

DaB die Schwellenubergange von Kate- 
gorie zu Kategorie schwieriger werden, 
darf nicht zu dem Fehlschlufi fiihren, daB 



die Kategorienhaufigkeiten mit aufstei- 
gender Kategoriennummer absinken. Die 
folgenden Zahlenbeispiele zeigen, daB 
sinkende Schwellcnwahrscheinlichkeiten 
(also steigende Schwellenschwierigkeiten) 
sowohl sinkende, als auch steigende oder 
eingipflig verteilte Kategorienhaufigkeiten 
bewirken konnen (vgl. Gleichung (1)): 



x= 


0 


l 


2 


3 


4 


q,= 




.43 


.40 


.29 


.20 


p,= 


.40 


.30 


.20 


.08 


.02 


9x= 




.60 


.57 


.55 


.54 


P* = 


.10 


.15 


.20 


.25 


.30 


q*= 




.66 


.64 


.42 


.29 


p.= 


.10 


.20 


.35 


.25 


.10 



Auch in dem Datenbeispiel des NEOFFI 
sinken trotz steigender Schwellenschwie- 
rigkeiten durchaus nicht alle Kategorien- 
haufigkeiten ab, wie bereits die Tabelle 
der Kategorienhaufigkeiten zeigt (s.o.). 
Hierbei ist jedoch zu beachten, daB die 
(iiber alle Personen ausgezahlten) Haufig- 
keiten der Antwortkategorien auch von der 
Verteilung der Personeneigenschaft in der 
Stichprobe abhangen. D.h. wenn es viele 
hohe Eigenschaftsauspragungen gibt, so 
nimmt die Besetzung der hoheren Ant- 
wortkategorien starker zu als man es 
aufgmnd der Schwellenparameter erwarten 
wiirde. 

Im folgenden soli die Likelihoodfunktion 
des ordinalen Rasch-Modells betrachtet 
werden, um zu sehen, welche Informa- 
tionen aus der Datenmatrix zur Bestim- 
mung der Modellparameter benotigt wer- 
den. Die Likelihood, d.h. die Wahrschein- 
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lichkeit der Testdaten unter der gegebenen 
Modellstruktur, lautet: 



(13) 



N k 

L=nn 



v=1 i=l 



exp(x vi e v -G ix ) 

X exp(s6 v -a is ) 

s=0 



Schrcibt man das doppelte Produkt iiber 
Personen und Items jeweils fiir Zahler und 
Nenner getrennt, so ergibt sich im Expo- 
nenten des Zahlers eine Doppelsumme, 
wahrcnd der gesamte Nenner der Likeli- 
hood unabhdngig von den beobachteten 
Daten ist und insofern eine Konstante (d) 
darstellt: 



exp 



X X x vi e v-X X a ix 



(14) L =- 



Die beiden Doppelsunmien im Exponen- 
ten konnen auf jeweils eine Summe ver- 
kiirzt werden, da die Modellparameter nur 
je einen der beiden Indices, v oder i, auf- 
weisen. Mit der Definition eines Summen- 
scores fiir jede Person v und einer Kate- 
gorienhaufigkeit fiir jedes Item i, d. h. 

k 

(15)r v = X x vi und 

i=l 

n ix = Anzahl der Personen mit X V] = x 
ergibt sich der folgende Ausdruck 



(16) 



exp 



L = - 



r v e v - X 
i 
d 



X n ix °ix 

x=0 I 



Wie beirn dichotomen und mehrdimen- 
sionalen Rasch-Modell hangt die Likeli- 
hoodfunktion nicht vom Inneren der Da- 
tenmatrix ab, sondem nur von bestimmten 
Summenstatistiken. Im Unterschied zum 
mehrdimensionalen Rasch-Modell (s. Kap. 
3.2.2) wird fiir die Personen nicht 



benotigt, wieviele Antworten jede Person 
in jeder Kategorie gegeben hat, sondem 
lediglich der Summenwert alter Itemant- 
worten. Jede Person erhalt hier nur einen 
Summenscore, der ausreicht, um ihre Ei- 
genschaftsauspragung zu berechnen. 



Ein nahel iegender F ehlschl uE 

Vielfach wird aus der Tatsache, dab die 
Kategoriennunmiern iiber alle Items auf- 
sunmiiert werden, der SchluB gezogen, 
dab die Antwortvariable im ordinalen 
Rasch-Modell intervallskaliert sei, da nur 
fiir intervallskalierte Mebwerte eine Sum- 
mation erlaubt sei. Dies ist insofern ein 
Fehlschlub, als an keiner Stelle der Mo- 
dellableitung die Annahme der Intervall- 
Skalenqualitat getroffen wurde. 

Ganz im Gegenteil, es werden die Schwel- 
lenabstande durch die Modellparameter 
erst geschdtzt und diese wiederum sagen 
etwas iiber die Grobe der Antwortkatego- 
rien (und somit iiber deren ‘Abstand’) aus. 

Bei dem Summenscore r v handelt es sich 
demgegeniiber um eine Hdufigkeit, niim- 
hch um die Anzahl der Schwellen, die eine 
Person im Laufe der Testbearbeitung iiber- 
schritten hat. Insofern ist der Summen- 
score lediglich eine Auszahlung diskreter 
Ereignisse (namlich der Schwelleniiber- 
scln'eitungen), die genauso legitim ist, wie 
z.B. die Berechnung eines Summenscores 
bei dichotomen Items. Audi der Summen- 
score dichotomer Items stellt eine Hau- 
figkeitsauszahlung dar, die nicht voraus- 
setzt, dab alle Items gleich schwierig sind. 



Die Summenscores fiir die Items sind al- 
lerdings (wie beim mehrdimensionalen 
Rasch-Modell) kategorienspezifisch zu 
bilden, da ja auch die Itemparameter kate- 
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gorienspezifisch sind, also zwei Indices 
aufweisen. 



Datenbeispiel: P ersonenparameter 

Fiir das Datenbeispiel ergeben sich fol- 
gende Schatzungen fiir die Personen- 
parameter: 



Score r 


n r 


0 r 


0 


6 


-5.55 


1 


17 


-4.12 


2 


34 


-3.23 


3 


62 


-2.47 


4 


104 


-1.74 


5 


183 


-1.02 


6 


154 


-0.36 


7 


136 


0.19 


8 


90 


0.65 


9 


73 


1.06 


10 


55 


1.45 


11 


38 


1.84 


12 


22 


2.24 


13 


12 


2.71 


14 


7 


3.34 


15 


7 


4.54 



Personen rnit demselben Summenscore 
erhalten dieselbe Parameterschatzung. 
Die Schatzwerte fiir Personen rnit dem 
Score r=0 und r=15 wurden rnit speziel- 
len Verfahren crmittelt (s. Kap. 4.2.1). 



Bei der Schatzung der Modellparameter 
kann man wie beini dichotomen Rasch- 
Modell von der marginalen Likelihood- 
funktion ausgehen, in der der Personen- 
parameter nicht enthalten ist. Analog zu 
Gleichung (16) in Kapitel 3. 1.1. 2.2 ergibt 
sich fiir das ordinale Rasch-Modell die 
marginale Likelihoodfunktion 



(17) mL = I]p(r v )- 



V=1 



r k i 

exp -X °ix 

V i-1 J 

Y r (exp(-a)) 



in der y r die symmetrischen Grundfunk- 
tionen r-ter Ordnung der Itemparameter 
bezeichnet. Diese symmetrischen Grund- 
funktionen sehen fiir mehrkategorielle 
Items etwas komplizierter aus als im 
dichotomen Fall. Fiir die delogarithmier- 
ten Itemparameter 

e ix =exp(-o ix ) 



sind sie ebenfalls als Sunmie von Produk- 
ten definiert 

k 

( 18 ) Y r (e) = XIl e ix- 

x|r i=l 



Jedoch ist die Anzahl der Pattern mit 
demselben Score r, also die Anzahl der 
Summanden in (18) wesentlich groBer. So 
gibt es z.B. fiir 3 Items mit je 3 Kate- 
gorien 6 Pattern mit dem Score r=2: 

1 1 0 
1 0 1 
x = 0 1 1 
2 0 0 
0 2 0 
0 0 2 

Trotzdem ist die Berechnung der symme- 
trischen Grundfunktionen mit einem Com- 
puter unproblematisch, so daB in der Pra- 
xis die Itemparameter iiber die Likeli- 
hoodfunktion (17) geschiitzt werden und 
anschlieBend die Personenparameter unter 
Zugmndelegung dieser Itemparameter. 

AbschlieBend bleibt anzumerken, daB das 
ordinale Rasch-Modell auch auf Items mit 
unterschiedlich vielen Antwortkategorien 
angewendet werden kann, was beirn mehr- 
dimensionalen Rasch-Modell (Kap. 3.2.2) 
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nicht moglich ist. Zur Vereinfachung der 
Notation wurde der Index i an der Kate- 
gorienanzahl m jedoch fortgelassen. Er- 
ganzt man ihn entsprechend, so sind alle 
genannten Fomieln auch fiir unterschied- 
liche Kategorienanzahlen giiltig. 



L iteratur 

Das ordinale Rasch-Modell wurde unter 
dem Namen partial credit Modell von 
Masters (1982) publiziert. Die Riick- 
fiihrung der Itemparameter auf Schwel- 
lenparameter geht auf Andrich (1978a, b) 
zuriick. In der Zcitschri ft Psychometrika 
wurde eine kontroverse Diskussion publi- 
ziert, die die Implikationen einer Zusam- 
menlegung von Antwortkategorien fiir die 
Geltung des ordinalen Rasch-Modells 
betrifft (Jansen & Roskam 1986, Roskam 
& Jansen 1989, Andrich 1995a, b, 
Roskam 1995). Erweiterungen des partial 
credit Modells werden von Glas & 
Verhelst (1989), Muraki (1992) und 
Wilson (1992) diskutiert. Alternative 
Modelle sind das graded response Modell 
von Samejima (1969) und das sequentielle 
Modell von Tutz (1990). Wilson und 
Masters (1993) befassen sich mit dem 
Problem von Kategorienhaufigkeiten, die 
gleich Null sind. 



U bungsaufgaben 

1. Ein dreikategorielles Item hat die 
Schwellenparameter Tp = -2.0 und 

X j 2 = 0.0. Wie groB kann die Wahr- 

scheinlichkeit einer Antwort in Kate- 
gorie x=l maximal werden? Miissen 
die Schwellen weiter auseinander oder 
dichter zusammen liegen, damit diese 
Wahrscheinlichkeit groBer wird? 

2. Ein Computerprogramm gibt die ku- 
mulierten (!) o-Parameter des ordinalen 
Rasch-Modells aus. Sie erhalten fiir ein 



Item die Schatzungen dp =-1.35, 
CTj2=-1.60, C7j3 = —1. 20 und 
CTj4 — — 0. 10 . Sind die Schwellen ge- 

ordnet? An welche Stellen auf dem 
Kontinuum liegen die Schwellen? 

3. Von welchem Summenscore an auf- 
warts haben Personen im NEOFFI- 
Datenbeispiel bei Item 3 eine groBere 
Wahrscheinlichkeit in Kategorie 2 zu 
antworten als in Kategorie 1? 

4. Berechnen Sie mit WINMIRA die 
Parameter des ordinalen Rasch-Mo- 
dells, nachdem Sie die NEOFFI-Daten 
so umkodiert haben, daB die zweite 
Kategorie den Kode x=2 und die dritte 
Kategorie x=l erhalt. Der Kode fiir die 
erste (x=0) und vierte Kategorie (x=3) 
bleibt unverandert. Interpretieren Sie 
die Ergebnisse im Vergleich zu den 
richtigen Ergebnissen des Datenbei- 
spiels. 
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3.3.2 Modelle ftir Ratingskalen 

Tm ordinalen Rasch-Modell wird fur jede 
Schwelle bei jedem Item ein neuer Para- 
meter bestimmt. Das sind bei 10 vierka- 
tegoriellen Items 30 - 1 = 29 zu schatzende 
Parameter. Das ist immer dann eine 
Uberparametrisierung, wenn man gar 
nicht jeden einzelnen Schwellenparameter 
interpretieren mochte, sondem im wesent- 
lichen nur die Leichtigkeit oder Schwie- 
rigkeit des gesamten Items. 

In diesem Kapitel werden 3 verschiedene 
Modelle dargestellt, die durch eine Re- 
striktion der Schwellenparameter aus dem 
ordinalen Rasch-Modell hervorgehen. 

Analysiert man Fragebogen mit Rating- 
skalen als Antwortformat, so benutzt man 
im allgemeinen dasselbe Antwortfonnat 
fur alle Items: die Antwortkategorien sind 
fur alle Items gleich benannt und gleich 
definiert. In solchen Fallen ist es sinnvoll 
anzunehmen, dab die Antwortkategorien 
(im Sinne ihrer Schwellenabstande, s. 
Kap. 3.3.1.) auch bei alien Items gleich 
grofi sind. Die Items sollen sich bei 
solchen Fragebogen lediglich in ihrer 
Schwierigkeit, zustimmende Antworten 
zuzulassen, unterscheiden. Die Abstiinde 
der Schwellen sind dagegen ein Charak- 
teristikum des Antwortformates und nicht 
des einzelnen Items. 

Diese Uberlegung fiihrt dazu, die Schwel- 
lenparameter des ordinalen Rasch-Modells 
so zu restringieren (einzuschranken), dab 
sie nicht mehr fur jedes Item beliebig 
variieren konnen. Sie sollen vielmehr die 
Charakteristika des gemeinsamen Ant- 
wortformates ausdrucken. 

Eine sinnvolle Annahme fur die Auswer- 
tung von Ratingdaten besteht daher darin. 



dab die Schwellenabstande fur alle Items 
gleich grofi sind, jedoch die Lokation 
dieser Schwellen von Item zu Item 
variiert, weil die Items unterschiedlich 
schwierig sind. Dies ist in Abbildung 92 
veranschaulicht. 




Abbildung 92: Drei unterschiedlich schwierige 
Items mit gleichen Schwellendistanzen 

Die Abbildung 92 zeigt drei Items, von 
denen das erste am leichtesten, das zweite 
am schwierigsten, und das dritte ein mitt- 
leres ist, wobei aber alle drei Items gleiche 
Schwellenabstande aufweisen. Mit dieser 
Restriktion der Schwellenabstande mub 
man bei diesen drei Items nicht 3-3-1, also 
8 unabhangige Parameter bestimmen, 
sondern lediglich 2 Schwellendistanzen 
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plus 3 Itemschwierigkeiten, also 5 un- 
abhangige Modellparameter. Je groBer die 
Itemanzahl, desto mehr Parameter werden 
eingespart. 

Als Parameter fiir die Itemschwierigkeit 
eignet sich entweder die Lage der ersten 
Scliwelle oder der Mittelpunkt aller 
Schwellen eines Items. In beiden Fallen 
steht unter Hinzunahme der Schwellen- 
distanzen die Lage aller Schwellen fest. 



Geht man wiederum von einer logistischen 
Funktion fiir die Schwellenwahrschein- 
liclikeiten aus (vgl. Formel (3) in Kap. 
3.3.1), d. h. 



(1) 9vix 



exp(9 v -T ix ) 
l + exp(e v -x ix ) ’ 



x = 0, 1. .. m , 



so kann man die oben formulierte An- 
nahme folgendermaBen parametrisieren: 
Man nimmt den ersten Schwellenpara- 
meter als Itcmparameter G, und addiert fiir 
die weiteren Schwellen jeweils einen kate- 
gorienspezifischen Distanzparameter x x zu 
dieser ersten Schwelle hinzu. Das fiihrt zu 
folgender Gleichung 

cxpi'e,,.-^, i t, j) 

U,qv,, '"l + exp(e v -(0 i+ Tj) 



mit Xj = 0. Die Normierungsbedingung 
Xj = 0 wird eingefiihrt, da die Lage der 
ersten Schwelle bereits durch den Item- 
Parameter Gj festgelegt ist. Fiir die Item- 
Parameter gilt wie beim dichotomen Mo- 
dell die Normierungsbedingung: 
k 

X Gj = o . 



meter eines Items nicht mehr der Lokation 
der ersten Schwelle entspricht, sondern 
dem Mittelpunkt aller Schwellen. Dieser 
Trick besteht darin, die Kategorienparame- 
ter x x ebenfalls einer Summennormierung 
zu unterziehen, anstatt x j = 0 zu setzen: 
m 

(3) 5>x=0- 

X— 1 

Mit dieser Art der Normierung driicken 
die G,-Parameter automatisch den Mittel- 
punkt aller Schwellenlokationen eines 
Items aus, da nur fiir den Mittelpunkt gilt, 
daB die Sunmie aller Abstande gleich 0 
ist. Diese Interpretation der Modellpara- 
meter ist in Abbildung 93 verdeutlicht. 




Abbildung 93: Die Itemschwierigkeit a als Mittel- 
punkt aller Schwellen und die Schwellenparanieter 
T x als Abweichungen von o 



Aus der Annahme (2) iiber die Schwel- 
lenwahi’scheinlichkeiten und der Normie- 
rungsbedingung (3) laBt sich analog zu der 
Ableitung im Kapitel 3.3.1 die folgende 
Modellgleichung ableiten 



(4) p(x vi = x) 



exp(x0 v - xGj — \|/ x ) 
m 

X exp(s0 v -sg, -y g ) 

S=() 



X 

wobei \|/ x = X 1 s • 

S=1 



Durch einen einfachen Trick kann man 
erreichen. daB der Schwierigkeitspara- 



Der Parameter \|/ x (Psi) ist ein kumulierter 
Schwellenpai’ameter, der aber anders als 
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o ix im ordinalen Rasch-Modell nicht 
itemspezifsch ist. Wegen der Normie- 
rungsbedingung (3) ist \|/ m = 0. Obwohl 
tj/ x als ein globaler Schwierigkeitspara- 
meter der Kategorie x angesehen werden 
kann (je groBer \|/ x , desto kleiner die 
Kategoricnwalirsehcinlielikeit), hat er 
keine direkte Interpretation als Punkt auf 
dem latenten Kontinuum. 

Fur die Interpretation sind daher die deku- 
mulierten Parameter X x vorzuziehen. An 
ihnen ist abzulesen, ob die Antwortkate- 
gorien geordnet sind (dann miissen die X x 
ansteigen), und wie groB die Schwellen- 
abstande und somit die zwischen ihnen 
liegenden Kategorien sind. 

Modell (4) wird als Ratingskalen-Modell 
bezeichnet, da die Annahme derselben 
Distanzen fur alle Items besonders bei der 
Verwendung einer Ratingskala als Ant- 
wortformat sinnvoll ist. Das Modell kann 
jedoch auch fur andere Alien von Test- 
daten verwendet werden, z.B. wenn freie 
Antworten bei alien Items nach demselben 
Schema kodiert wurden. Auf jeden Fall 
muB die Kategorienanzahl fur alle Items 
identisch sein. 



Datenbeispiel: R atingskalen Modell 

Ftir das Datenbeispiel ergeben sich fol- 
gende Parameterschatzungen: 





CT i 






1 


-0.56 




1 


-2.74 


2 


+0.11 


und 


x=2 


+0.55 


i = 3 


+0.42 




3 


+2.19 


4 


-0.54 






5 


+0.56 







Die Schwellendistanzen betragen bei 
alien Items X 2 -X]=3.29 und 
x 3 -x 2 = 1.64. 



Anhand dieser Werte lassen sich die 
Lokationen der einzelnen Schwellen 
zuriickrechnen und mit den Ergebnissen 
aus Kapitel 3.3.1 vergleichen. 



Schwellenlokationen: 





x = 1 


x = 2 


x = 3 


1 


-3.30 


-0.01 


+1.63 


2 


-2.63 


+0.66 


+2.30 


i = 3 


-2.32 


+0.97 


+2.61 


4 


-3.28 


+0.01 


+1.65 


5 


-2.18 


+1.11 


+2.75 



Es zeigt sich, daB die Restriktion dieses 
Modells bei den meisten Items relativ 
gut paBt, wobei die Abweichungen bei 
Item 4 am groBten sind. 

Die Personenparameterschatzungen un- 
terscheiden sich kaum von denen des or- 
dinalen Rasch-Modells (s. Kap. 3.3.1), 
so daB sie hier nicht gesondert auf- 
geftihrt zu werden brauchen. 



Bezeichnenderweise gibt es die groB- 
ten Abweichungen der ruckgerechneten 
Schwellenlokationen von den unrestrin- 
gierten Lokationen (vgl. Kap. 3.3.1) bei 
Item 4, welches umgepolt worden ist: 
x 41 = -3.28 statt -3.87 und x 43 = -1.65 
statt 2.15. 

Tatsachlich macht es wenig Sinn, das 
Ratingskalen-Modell auf Fragebogen mit 
unterschiedlich gepolten Items anzuwen- 
den: Zur Anwendung eines quantitativen 
Testmodells miissen alle Antwortvariablen 
gleichsinnig ausgerichtet sein, da ein ho- 
lier Summenscore stets eine hohe Eigen- 
schaftsausprdgung ausdrtickt. Nimmt man 
aber fiir einige Items eine Umpolung vor, 
so ist es nicht mehr sinnvoll anzunehmen, 
daB die Distanzen zwischen je zwei 
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Schwellen fur alle Items konstant sind: 
dieselben Codes bezeichnen bei den 
umgepolten Items ganz andere Kategorien 
als bei den nicht umgepolten Items. 
Beispiel: 





lehne 
vollig ab 


lehne 

ab 


stimme 

zu 


stimme 

vollig 

zu 


Original- 

code: 


0 


, 


2 


3 


Umgepolt: 


3 


2 


1 


0 



Der Koeffizient von 8, x-(m+l)/2, sorgt 
dafiir, dab fur jede Schwelle von x=l bis 
x=m der richtige Anteil (bzw. das Vielfa- 
che) der Schwellendistanz 6 vom Mittel- 
wert aller Schwellen abgezogen bzw. da- 
zugezahlt wird. Dies ist in Abbildung 94 
veranschaulicht. 




_J 








i 


X- 


Li x ! 




1 X: 


=3 X: 


=4 



Das Ratingskalen-Modell kann also nur 
auf Fragebogen angewendet werden, deren 
Items gleichsinnig gepolt sind. 

Bei vielen Ratingskalen ist man bemiiht, 
die Antwortkategorien so zu benennen, 
dab die Kategorien moglichst gleichen Ab- 
stand haben, d. h. aquidistant sind. In 
einem Testmodell druckt sich die Aquidi- 
stanz von Antwortkategorien in gleichen 
Abstanden der Schwellen aus. Man kann 
diese Aquidistanzannahme als eine weitere 
Restriktion des Ratingskalen Modells (4) 
einfiihren. 



m=5 8 8 8 8 

h — > e 

x=l x=2 x=3 x=4 x=5 

I 

a 

Abbildung 94: Die Ermittlung der Schwellen- 
lokationen mittels des konstanten Distanzpara- 
meters 6 und des Schwierigkeitsparameters 0 

Die Kategorienwahrscheinlichkeit ergibt 
sich fiir dieses Modell wiederum durch 
Summation des Exponenten bis zur jewei- 
ligen Schwelle x (s. Kap. 3.3.1). 

(6) P (X vi = x) 



Infolge einer solchen Restriktion ist an- 
stelle von m-1 z-Parametem nur noch 1 
Distanzparameter zu schatzen, der ge- 
meinsam mit dem Itemparameter Oj die 
Schwellen festlegt. Das fuhrt zu folgen- 
dem Modell fiir die Schwellen wall rschein- 
lichkeiten, in dem 8 einen Distanzpara- 
meter darstellt: 



(5) q V ix = 



exp 0 V - 



1 + exp 0 V 




exp 


m + lV 

x6 v xa ; 2. s 0 8 




l s=l V 2 7 ) 




m 




Z exp(---) 




s=0 


expl 


^x0 v - xCj - x(x - m)-j8) 




m 




X ex p(---) 




s=0 



Die Umwandlung des Koeffizienten von 8 
infolge der Kumulierung von 1 bis x ist im 
folgenden Kasten dargestellt. 
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Der Koeffizient des D istanzparame- 
ters 



summiert man den Koeffizienten von 5 
in Gleichung (5) von 1 bis x auf, so 
ergibt sich mit Hilfe einer Gesetzma- 
Bigkeit iiber endliche Reihen der fol- 
gende einfache Ausdruck: 




m - 1 



ff X > 


\ 


I 2s-i 


- x m 


As=i j 


! ) 



x - x m 



— x(x - m) . 



Die hierbei benutzte GesetzmaBigkeit, 
daB die Summe aller ungeraden Zahlen 
bis zur x-ten ungeraden Zahl genau x" 
ist, laBt sich folgendermaBen nachvoll- 
ziehen: 



X 


2x-l 


X 2 


1 


1 


1 


2 


3 


4 


3 


5 


9 


4 


7 


16 


5 


9 


25 


6 


11 


36 


7 


13 


49 



Addiert man die mittlere Spalte auf, so 
erhalt man als Ergebnis stets die rechts 
stehende Quadratzahl. 



Dieses Modell wird Aquidistanzmodell ge- 
nannt, da es neben den Itemschwierigkei- 
ten nur einen einzigen Parameter benotigt, 
namlich die konstante Schwellendistanz 6. 
Eine Verallgemeinerung des Modells be- 
steht darin, diesen Distanzparameter 5 



nicht als fiir alle Items konstant anzuneh- 
men, sondern als zweiten Itemparameter 
8j vorzusehen: 

(7) p(x v j = x) 

exp(x0 v - xctj - x(x - m)^8;) 

— m 

X exp(---) 
s=0 

Die 8j -Parameter unterliegen keiner Nor- 
mierungsbedingung, wahrend fiir die 
Itemschwierigkeiten die ubliche Sunmien- 
nomiierung gilt. Abbildung 95 zeigt die 
Kategorienwahrscheinlichkeiten fiir drei 
Items mit unterschiedlichem 8j -Parameter: 






Abbildung 95: Die Kategorienfunktionen des 
Aquidistanzmodells (7) fiir drei Items mit den 
Parametern: —1.5 und 8j=0.5, 02=0 und 

82=1.0, 03=0.5 und 83=1.5 
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Bei gleicher Verteilung der Personenei- 
genschaften iiber das latente Kontinuum 
ergeben sich fur diese drei Items ganz 
unterschiedliche Kategorienhaufigkeiten. 
Beim ersten Item mit dem engsten 
Schwellenabstand, d.h. dem kleinsten § ; - 
Parameter, werden die beiden auBeren 
Antwortkategorien sehr viel haufiger be- 
setzt sein. Die Antwortvariable hat, iiber 
alle Personen betrachtet, somit eine gro- 
fiere Dispersion (Dispersion = Streuung). 

Tm Gegensatz dazu werden sich bei dem 
dritten Item mit den grofiten Schwellendi- 
stanzen, also dem groBten Distanzparame- 
ter 8j die Antworten in den mittleren Ka- 
tegorien haufen. Die Antwortvariable hat 
also eine kleine Dispersion iiber alle 
Personen betrachtet. Aus diesem Grund 
wird 8, auch als Dispersionsparameter be- 
zeichnet: je kleiner 8, , desto groBer die 
Dispersion des Items. 

Datenbeispiel: Aquidistanzmodell 

Fiir das Datenbeispiel ergeben sich die 
folgenden Parameterschatzungen : 





Cj 


Si 


1 


-.56 


2.66 


2 


+.01 


2.18 


i = 3 


+.51 


2.92 


4 


-.53 


2.98 


5 


+.57 


2.66 



Wahrend beim Ratingskalen Modell die 
erste Schwellendistanz sehr groB, 
namlich 3.29, die zweite etwas kleiner 
war (namlich 1.64), wird hier eine mitt- 
lere Distanz fiir jedes Item geschatzt. 
Das zweite Item hat die groBte Dis- 
persion, das vierte Item die kleinste. 



Was hier als Dispersion des Items bezeich- 
net wird und sich in dem &-Parameter 
ausdriickt, hangt direkt mit der Itemdis- 
krimination oder Trennschdrfe zusammen. 
Die Itemtrennscharfe ist in Kapitel 3.1 als 
Anstieg der Itemfunktion definiert worden. 
Anstelle einer einzigen Itemfunktion 
wurden in Kapitel 3.3.1 die Katego- 
rienfunktionen fiir ordinale Testdaten ein- 
gefuhrt. An diesen Kurven ist jedoch nicht 
ohne weiteres ein SteigungsmaB defi- 
nierbar, das die Trennscharfe charakte- 
risieren wiirde. 

Man kann jedoch das Konzept der Item- 
funktion auch so definieren, daB es auf 
ordinale Testmodelle anwendbar ist. Die 
Itemfunktion druckt die Abhangigkeit der 
Losungswahrscheinlichkeit eines Items 
von der latenten Variable aus. Bei dicho- 
tomen Daten ist die Wahrscheinlichkeit 
einer 1-Antwort zugleich der Erwartungs- 
wert der Antworh’ariable. 



E rwartungswert einer 0 -l-V ariable 

Der Erwartungswert einer Variable X ist 
folgendermaBen definiert (vgl. Kap. 
2 . 1 . 2 ): 

Erw(X) = X xp(x) 

X 

und druckt nichts anderes aus als den 
aufgmnd einer Wahrscheinlichkeitsvertei- 
lung erwaileten Mittelwert der Variable X, 
wenn jede Valenz von X mit der Wahr- 
scheinlichkeit p(x) auftritt. 

Ist die Variable X dichotom, d.h. nimmt 
sie nur die Weite 0 und 1 an, so ist der 
Erwartungswert der Variable gleich der 
Wahrscheinlichkeit einer 1-Antwort, d.h. 

Erw(X)=p(X=l), 
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was man sich anhand eines einfachen 
Beispiels leicht klarmachcn kann (betragt 
die Losungswahrscheinlichkeit eines Items 
p=0.75, so ist der erwartete Mittelwert der 
Antwortvariable x = 0,75). 



Definiert man die Itemfunktion als die 
Funktion cles Erwartungswertes der 
Antwortvariable in Abhdngigkeit von der 
Personeneigenschaft 0, so ist die Item- 
funktion auch fur ordinale Testmodelle be- 
stimmbar und graphisch darstellbar. Die 
benotigten Wahrscheinlichkeiten p(x) sind 
durch die jeweilige Modellgleichung defi- 
niert. 

Die Itemfunktionen fur die drei Items in 
Abbildung 95 sehen folgendermaBen aus: 

E(X) 




Abbildung 96: Die Itemfunktionen der drei Items 
aus Abbildung 95 

Es zeigt sich, daB das erste Item mit den 
engsten Schwellenabstanden die steilste 
Itemfunktion hat und das dritte Item mit 
den groBten Schwellendistanzen eine 
flache Itemfunktion hat. Das bedeutet, je 
groBer die Schwellenabstande, also der 
Parameter 8 ist, desto geringer ist die 
Trennscharfe dieses Items. 8 ist somit ein 
inverser Trennschdrfeparameter. 

Wurde in Kapitel 3.1 gesagt, daB Rasch- 
Modelle parallele Itemfunktionen haben, 
d.h. daB die Items sich nicht hinsichtlich 
ihrer Trennscharfe unterscheiden diirfen, 
so muB diese Aussage eingeschrdnkt 



werden auf den Fall dichotomer Items. Tm 
Fall mehrkategorieller, ordinaler Items ist 
bereits ab drei Antwortkategorien die 
Trennscharfe fiir jedes Item berechenbar, 
ohne daB die sonstigen Eigenschaften des 
Rasch-Modells verlorengehen. 

hn Aquidistanzmodell ist die Itemtrenn- 
scharfe direkt in Form eines Modellpa- 
rameters enthalten, wahrend sich im nor- 
malen ordinalen Rasch-Modell die Item- 
trennscharfe nur indirekt in den unter- 
schiedlichen Schwellendistanzen der Items 
ausdruckt. Man kann sie jedoch als mitt- 
lere Schwellendistanz eines Items berech- 
nen. 



Trennscharfe: Ein Gutekriterium? 

Es stellt sich die Frage, ob eine ho he 
Trennscharfe der Items bei ordinalen 
Antwortformaten auf jeden Fall das 
erstrebenswerte Ziel einer Testentwick- 
lung sein muB. Eine hohe Trennscharfe 
heiBt bei ordinalen Items, daB die Schwel- 
len dicht beieinander liegen, das Item also 
gut zwischen Personen mit einer sehr 
geringen und einer sehr hohen Eigen- 
schaftsauspragung trennt. 

Gleichzeitig haben enge Schwellendistan- 
zen zur Konsequenz, daB die mittleren 
Kategorien niclit voll ausgenutzt werden. 
da die meisten Personen dem Item entwe- 
der zustimmen oder es ablehnen. Es fragt 
sich, ob dies der Sinn eines ordinalen 
Antwortformates ist, will man doch mit 
abgestuften Antworten gerade auch die 
Zwischentone im Antwortverhalten erfas- 
sen und nicht nur extreme Zustimmung 
oder Ablehnung. Es kann daher auch sinn- 
voll sein. Items mit einer mittleren Trenn- 
scharfe, d.h. groBen Schwellenabstanden 
anzustreben, um auch zwischen Personen 
im Mittelbereich der latenten Variable 
diskriminieren zu konnen. 
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Da der Parameter 8j die Trennscharfe 
eines Items ausdriickt, liegt es nahe, einen 
solchen Trennscharfeparameter nicht nur 
unter der Annahme der Aquidistanz aller 
Antwortkategorien vorzusehen. Inr Rating- 
skalen Modell (Gleichung (4)) war es 
moglich, daB die Schwellen des Antwort- 
formates unterschiedlichen Abstand 
haben, wall rend das Aquidistanzmodell 
unterschiedliche Itemtrennscharfen be- 
riicksichtigt. Das dritte Testmodell fiir 
Ratingdaten ist daher die Kombination aus 
Ratingskalen-Modell und Aquidistanz- 
modell, in dem sowohl die Abstandspa- 
rameter T x als auch die Trennschaifepa- 
rameter 8, beriicksichtigt sind: 

(8) p(x vi = x) 

exp(x0 v - xcTj — q/ x — x(x -m)^8i) 
m ’ 

X exp(---) 

s=0 

X 

mit Vx = X X s • 

S=1 

In diesem Dispersionsmodell sind die 
gmndlegenden Schwellendistanzen bereits 
durch die T x Parameter festgelegt, so daB 
die Distanzparameter Sj einer eigenen 
Normierung unterworfen werden miissen, 
namlich auch einer Summennornrierung. 
Es gilt 

m k 

(9) X x s = 0, X 5,=0. 

s=l i=l 

Damit drucken die 5, Parameter die Ab- 
weichung der itemspezifischen Schwel- 
lendistanzen von der mittleren Schwel- 
lendistanz aus, die durch die Parameter T x 
vorgegeben ist. Abbildung 97 zeigt die 



Kategorienfunktionen fiir drei Items ini 
Dispersionsmodell. 




Abbildung 97: Die Kategorienfunktionen von drei 
Items mit den Parametern Oj= - 1.0 und 
8j= -1.0, 02=0.0 und §2=0.0, 03= +1.0 und 
§3= + 1.0 , sowie Tj= - 2 . 5 , unc * ' t 3=2.0 

Fiir alle Items ist die erste Schwellen- 
distanz jeweils groBer als die zweite 
Schwellendistanz, jedoch sind beide 
Distanzen beim ersten Item gegeniiber 
dem zweiten Item verringert (um 
8j = -1. 0), wahrend sie beinr dritten Item 
vergroBert sind (8j = +1.0). Diese Verldn- 
gerung oder Verkurzung der Distanzen 
erfolgt nach MaBgabe des Parameters 8,, 
d.h. 8, druckt aus, um welche Lange die 
Schwellendistanzen bei einem Item von 
der mittleren Schwellendistanz aller Items 
abweichen. Die ^-Parameter parametri- 
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sieren die mittleren Distanzen zwischen 
zwei bestimmten Schwellen. 



Datenbeispiel: D i spersi onsmodel I 



Die Parameterschatzungen fiir das 
Dispersionsmodell lauten: 





CT i 




1 


-.55 


.20 


2 


.10 


-.52 


i = 3 


.47 


.02 


4 


-.57 


.52 


5 


.55 


-.24 











1 


-2.81 


undi 


X 

II 

N) 


.63 




3 


2.18 



Es zeigt sich, daB Item 4 die groBten 
Schwellendistanzen und somit die ge- 
ringste Trennscharfe hat, wahrend Item 
2 mit den kleinsten Schwellendistanzen 
die groBte Trennscharfe hat. Bei alien 
Items ist die Distanz zwischen Schwelle 
1 und Schwelle 2 groBer als die Distanz 
zwischen Schwelle 2 und 3. 



Abbildung 98 zeigt die Beziehungen clie- 
ser Modelle untereinander. Alle Modelle 
sind Spezialfalle des ordinalen Rasch- 
Modells, d.h. sie gehen durch Restrik- 
tionen aus letzterem hervor. Das Disper- 
sionsmodell ist wiederum ein Obemiodell 
des Ratingskalen und des Aquidistanz- 
modells. Letztere gehen durch Null-setzen 
der \|/ x bzw. der 8, -Parameter aus dem 
Dispersionsmodell hervor. Somit ergibt 
sich die folgende hierarchische Struktur 
zwischen den Modellen: 



Ordinales Rasch-Modell 




Abbildung 98: Die hierarchische Struktur der 
Testmodelle fiir Ratingskalen 



Die Kenntnis, welches Modell ein 
Spezialfall von welchem anderen ist, ist 
fiir einige Modellgeltungskontrollen von 
Bedeutung (s. Kap. 5.). 

Es stellt sich die Frage, wcirum man solche 
restringierten ordinalen Modelle iiber- 
haupt braucht, wenn sich die Personen- 
meBwerte unterschiedlich restriktiver Mo- 
dellen kaum unterscheiden. Will man die 
Daten moglichst gut mittels eines Test- 
modells erklaren, so ist das unrestringierte 
ordinale Rasch-Modell (Kap. 3.3.1) in 
jedem Fall dasjenige mit der groBten 
Ubereinstimmung von beobachteten und 
vorhergesagten Daten. Es enthalt auch die 
meisten Modellparameter. 

Das entscheidende Argument fiir ein 
restriktiveres Modell liegt darin, daB man 
ein Modell auf die Daten anwenden sollte, 
welches genau die Parameter enthalt, die 
den praexperimentellen Hypothesen iiber 
das Antwortverhalten entsprechen und die 
man spater auch tatsachlich interpretiert. 

Bei der Auswertung von Fragebogen mit 
Ratingskalen hat man im allgemeinen kei- 
ne Annahmen iiber die Lokationen einzel- 
ner Schwellen, sondem man mochte die 
Itemschwierigkeiten und -trennscharfen 
interpretieren und gleichzeitig Infomiatio- 
nen iiber die verwendete Ratingskala 
haben. Genau diese Funktionen erfiillen 
die Oj-, 5j- und x x -Parameter der Modelle 
(4), (7) und (8). Die Verwendung von 
restringierten Modellen ist daher nicht nur 
ein Gebot des Einfachheitskriteriums fiir 
Theorien, sondem auch der Passung von 
Theorie und Empirie. 

Bei der Verwendung von Ratingskalen in 
Fragebogen spielen der sogenannte Ska- 
lengebrauch oder auch die response sets 
(dt. etwa ‘Antworthaltungen’) der befrag- 
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ten Personen eine grobe Rolle (vgl. Kap. 
2. 3. 1.3). Solche response sets - sofern sie 
fiir alle befragten Personen zutreffen - 
konnen sich bei ordinalen Testmodellen in 
den Schwellendistanzen ausdrucken und 
manifestieren sich z.B. im Ratingskalen 
Modell in den T x -Parametem. 



Response sets und Schwellendistanzen 

Eine Tendenz zum extremen Urteil druckt 
sich z.B. darin aus, dab die erste Schwelle 
sehr schwer und die letzte Schwelle sehr 
leicht ist, so dab die Kategorien x=0 und 
x=m sehr haufig besetzt sind (es ist ‘sehr 
schwer’, die erste Schwelle, und ‘sehr 
leicht’ die letzte Schwelle zu iiberschrei- 
ten). Eine Tendenz zum mittleren Urteil 
druckt sich darin aus, dab die Schwel- 
lendistanz der mittleren Kategorie relativ 
grob ist, also sehr viele Personen die 
mittlere Kategorie der Ratingskala bevor- 
zugen. 

Problematisch kann es werden, wenn eine 
Tendenz zur Vermeidung eines mittleren 
Urteils vorliegt, was sehr haufig in empiri- 
schen Datensatzen beobachtbar ist. Diese 
Tendenz tritt auf, wenn man eine ungera- 
de Kategorienanzahl verwendet, die mitt- 
lere Kategorie aber von den befragten 
Personen gemieden wird. Die Grunde hier- 
fiir konnen vielfach sein, z.B. weil die Be- 
fragten deutlich machen mochten, dab sie 
zu jedem Item eine Meinung haben und 
nicht indifferent urteilen (dies ware auch 
ein Aspekt der sozialen Erwunschtheit). 



Tendenzen zur Vermeidung bestimmter 
Antwortkategorien sind deswegen proble- 
matisch, weil sie die Ordnung der Schwel- 
lenparameter durcheinander bringen kon- 
nen. Wird eine Kategorie gemieden, so 
bedeutet das, dab die Schwelle vor dieser 
Kategorie sehr schwer, die Schwelle nach 



der Kategorie sehr leicht ist. Dies fuhrt 
aber dazu, dab die Ordnung aufsteigender 
Schwellenschwierigkeiten, die bei ordina- 
len Antworten gegeben sein mub (s. Kap. 
3.3.1) durchbrochen wird. 

Ist die Ordnung der Schwellenparameter 
nicht mehr gegeben, entfallt auch das 
wichtigste Kriterium fur die Ordinalska- 
lenqualitat der Itemantworten. In letzter 
Konsequenz kann man diese Situation 
auch als einen Fall von Mehrdimensionali- 
tdt interpretieren, denn diejenige Katego- 
rie, die gemieden wird, wird wohl auf- 
grund einer anderen Personlichkeitseigen- 
schaft gemieden, als der, die gemessen 
werden soil. 



Literatur 

Das Ratingskalen-Modell wurde von 
Andrich (1978a, b, c) publiziert, das Aqui- 
distanzmodell von Andrich (1982) und das 
Dispersionsmodell von Rost (1988a, 
1990b). Masters & Wright (1984) und 
Wright & Masters (1982) beschreiben die 
Familie von Rasch-Modellen fiir Rating- 
skalen. Diese Familie schliebt auch das 
Rasch-Modell mit binomialverteilter Ant- 
wortvariable von Andrich (1978d) und das 
Poisson-Modell von Rasch (1960) mit ein. 
Das Modell mit kontinuierlicher Antwort- 
variable, das entsteht, wenn die Anzahl 
der Schwellen im Aquidistanzmodell ge- 
gen unendlich geht, wurde von Miiller 
(1987, 1995) entwickelt. 



Ubungsaufgaben: 

1. Welche der vier Rasch-Modelle fiir 
ordinale Daten lassen sich auf Items 
mit unterschiedlichen Kategorienan- 
zahlen anwenden? 

2. In einem Fragebogen mit 7-stufigem 
Antwortformat erhalten Sie die 
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folgenden Schwellenparameter: 
x, = -2.5, x 2 =-1.4, x 3 = +0.4, 
x 4 = -0.3, x 5 =+1.3, x 6 = +2.5. 
Welches response set zeigen die be- 
fragten Personen? 

3. Wo liegen im Dispersionsmodell die 
Schwellen des ersten Items des Daten- 
beispiels (die Schwellenlokationen)? 

4. Wieviele unabhangige Modellparame- 
ter (ohne Personenparameter) werden 
beim Dispersionsmodell geschatzt? 



3.3.3 Klassenanalyse ordinaler 
Daten 

Mit Ratingdaten oder allgemeiner, mit 
ordinalen Itemantworten lassen sich nicht 
nur quantitative Personenvariablen erfas- 
sen, sondern auch qualitative Variablcn, 
also latente Klassen von Personen. Man 
erhebt zwar mit abgestuften Itemantworten 
bereits quantitative Antwortvariablen, die 
den Grad der Zustimmung zu dem 
Iteminhalt ausdrucken. Das bedeutet aber 
nur, da6 sich die Personen bei jedem 
einzelnen Item graduell unterscheiden. Die 
latente Personenvariable, die die indivi- 
duellen Unterschiede im Antwortverhalten 
hinsichtbch aller Items erklart, kann den- 
noch kategorial, also eine Klassen variable 
sein. 



Bei spiel 

Ein Fragebogen zur Messung der Ein- 
stellung zum Motorsport enthalt Fragen 
des folgenden Typs: 

- Autorennen finde ich sehr spannend 

- Motorsport ist eine unniitze Luftver- 

schmutzung 

- Motorsport ist nur ein Wettstreit der 

Technik und nicht der korperlichen 
Leistung 

Die Antworten werden mit einer 4- 
stufigen Skala von ‘lehne ab’ bis ‘stimme 
zu’ erhoben. Es werden drei Klassen von 
Personen erwartet: solche, die dem Motor- 
sport gegenuber positiv eingestellt sind, 
solche, die ihn aus Umweltschutzgrunden 
ablehnen und solche, die ihn ablehnen, 
weil es kein Wettstreit der Korperkraft, 
sondern der Motorkraft ist. Die Itempro- 
fde der drei erwarteten Klassen sehen fur 
die drei o.g. Items wie folgt aus: 
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Erw (X vi ) 




Abbildung 99: Die Erwartungswertprofile der drei 
Beispieli terns 

Auf der Ordinate sind jetzt nicht mehr 
Wahrsehcinliehkeiten abgetragen (wie bei 
der dichotomen oder nominalen Klassen- 
analyse, vgl. Kap. 3. 1.2.2 und 3.2.1), son- 
dern die Erwartungswerte der Antwort- 
variable, also die in jeder Klasse erwartete 
Itemantwort. 



Das Beispiel soli deutlich machen, dab 
man Klassen von Personen sehr wohl 
dadurch erfassen kann, dab man mit 
ordinalen Itemantworten den Grad ihrer 
Zustimmung zu jedem Item erhebt. Die 
Klassen miissen sich dann nicht notwen- 
digerweise auch graduell unterscheiden, 
sondern konnen qualitativ verschieden 
sein, wie die beiden Klassen, die den 
Motorsport ablehnen. 

1st man bei der Auswertung eines Tests 
nicht daran interessiert, etwas dariiber zu 
erfahren, ob die Antwortalternativen wirk- 
lich eine Ordinalskala bilden, so kann man 
einfach die Klassenanalyse fiir mehrka- 
tegorielle Daten (Kap. 3.2.1) anwenden. 
Dieses Modell sieht fiir jede Antwort- 
kategorie einen Wahrscheinlichkeitspara- 
meter Tt lxg vor: 

(1) p(x v j— x) — ^ Ttg ttj x g , 

g=l 



der sich iiber die Kategorien hinweg zu 1 
addieren mub: 

m 

E n ixg =1 - 

x=0 

Wall re nd es bei Antwortkategorien, die 
keine Ordnung bilden, auch keinen Sinn 
macht, die Erwartungswerte der Antwort- 
variablen zu berechnen, ist dies bei ordi- 
nalen Antworten sinnvoll: 

m 

(2) Erw(x vi |gj= ^ X7t ixg . 

x=0 

So sagt etwa ein Erwartungswert von 2.35 
aus, dab die Personen dieser Klasse bei 
diesern Item am liebsten zwischen 2 und 3 
ankreuzen wiirden. Da dies natiirlich nicht 
geht, werden die meisten Haufigkeiten bei 
‘2’ und - etwas weniger - bei ‘3’ liegen. 



Datenbeispiel 

Die 2-Klassenlosung ergibt fiir das Da- 
tenbeispiel die Klassengrobenparameter 
7tj = 0.65 und Jt 2 = 0.35 sowie die 
folgenden Parameterwerte 7tj xg : 





i=l 


i=2 


i=3 


i=4 


i=5 






Klasse 1 






0 


.08 


.26 


.23 


.07 


.27 


1 


.66 


.59 


.70 


.72 


.67 


2 


.22 


.14 


.06 


.19 


.05 


3 


.04 


.01 


.01 


.02 


.01 






Klasse 2 




0 


.00 


.03 


.01 


.00 


.04 


1 


.23 


.25 


.42 


.12 


.42 


2 


.51 


.50 


.44 


.66 


.39 


3 


.25 


.21 


.13 


.21 


.15 
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Darans lassen sich die folgenden Erwar- 
tungswerte berechnen: 





i=l 


i=2 


i=3 


i-4 


i=5 


g=l 


1.21 


0.91 


0.86 


1.16 


0.80 


g=2 


2.02 


1.89 


1.68 


2.09 


1.65 



und als Erwartungswertprofile graphisch 
darstellen 



Erw (X vi lg) 




Abbildung 100: Die Erwartungswertprofile der 
5 NEOFFI-ltems 

Es handelt sich um zwei geordnete Klas- 
sen, da die Itemprofile tiberschneidungs- 
frei verlaufen. Klasse 1 zeichnet sich 
dadurch aus, daB die 5 Neurotizismus- 
ltems als unzutreffend eingestuft werden 
in Klasse 2 dagegen eher als zutreffend. 

Wendet man die Klassenanalyse in dieser 
Form auf ordinale Daten an, so hat das 
zwei Nachteile: Erstens, verstoBt man 
gegen das Einfachheitskriterium, da man 
fur jedes Item in jeder Klasse m 
unabhangige Parameter schatzt (im Da- 
tenbeispiel: 3), aber nur einen Wert 
interpretiert, namlich die iiber den Er- 
wartungswert definierte Zustimmungsten- 
denz. Zweitens, erfahrt man auf diese 
Weise nichts dariiber, ob die Antwortskala 



tatsachlich eine Ordinalskala darstel It und 
- wenn ja - wie groB die Kategorien sind, 
z.B. definiert iiber ihre Schwellenabstande 
(Kap. 3.3.1). 

Beide Nachteile resultieren daraus, daB 
liier kein Modell angewendet wird, das 
speziell fur ordinale Daten konstruiert ist, 
sondern lediglich ein Modell fur nominale 
Daten. Dies fiihrt zu der Frage, wie man 
denn die Parameter der latenten Klassen- 
analyse restringieren konnte, damit das 
Modell der Ordinalskalenqualitat der Da- 
ten gerecht wird. Bezogen auf die Para- 
meter des Modells (1) laBt sich die Frage 
prazisieren: 

Was zeichnet die Wahrscheinlich- 
keitsverteilung der Antwortvariable 
aus, wenn es sich um geordnete 
Antwortkategorien handelt? 

Abbildung 101 zeigt die Wahrschein- 
lichkeitsverteilungen zweier Items in der 
ersten Klasse der Beispielrechnung. 




0 1 2 3 0 12 3 



= X = X 

Abbildung 101: Die Wahrscheinlichkeitsver- 

teilung der Antwortvariable flir Item 3 und 4 in 
Klasse 2 

Beide Verteilungen sehen regelmaBig aus 
und scheinen mit der Annahme ordinaler 
Kategorien vertraglich zu sein. Anders 
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verhalt es sich mit den in Abbildung 102 
dargestellten Verteilungen. 




0 12 3 0 1 2 3 



Abbildung 102: Zwei Wahrscheinlichkeitsver- 
teilungen. die nicht auf ordinale Antwortkategorien 
hinweisen 

Die in dieser Abbildung dargestellten Ver- 
teilungen sind deswegen nicht mit der An- 
nahme ordinaler Kategorien vertraglich, 
weil es keinen Sinn macht, dab Personen 
(mit derselben Auspragung der latenten 
Variable!) mit holier Wahrscheinlichkeit 
in Kategorie 0 und 2 (bzw. in 1 und 3) 
antworten, aber nur mit geringer Wahr- 
scheinlichkeit in der dazwischen liegenden 
Kategorie 1 (bzw. 2). Aus einer solchen 
Verteilung ist nicht ersichtlich, auf 
welchen Grad der Zustimmung Antwort- 
verhalten hinweist. 

Soli die Itemantwort den Grad der Zu- 
stimmung ausdrucken, so muB eine 
Antwortkategorie die groBte Wahrschein- 
lichkeit aufweisen und die Wahrschein- 
lichkeiten der anderen Kategorien miissen 
nach ‘rechts’ und ‘links’ absinken. Sofem 
es sich bei der praferierten Kategorie um 
eine extreme Kategorie handelt (x=0 oder 
x=m) sinken die A nt wort wall rsc hcinlich- 
keiten nur in einer Richtung ab. 

Als eine mdgliche Antwort auf die oben 
gestellte Frage kann daher gelten: 



Die Wahrscheinlichkeitsverteilungen 
ordinaler Antwortvariablen sollten 
eingipflig (unimodal) sein. 

Als Konsequenz aus dieser Beantwortung 
der Frage kann man die Klassenanalyse 
(so wie sie ist) auf ordinale Daten anwen- 
den und die gesehatzten Parameter darauf- 
hin priifen, ob die Antwortverteilungen 
eingipflig sind. Nur, auf diese Weise hat 
man das Modell noch nicht fur ordinale 
Daten restringiert und folglich auch keine 
Parameter eingespart. 

Ein restringiertes Klassenmodell ergibt 
sich, wenn man der Ordinalskalenqualitat 
der Antwortvariablen auf dieselbe Art und 
Weise Rechnung tragt, wie dies in Kapitel 
3.3.1 fur quantitative Testmodelle getan 
wurde. Dort wird die Ordnung der Ant- 
wortkategorien dadurch im Modell abge- 
bildet, daB den aufeinanderfolgenden Ka- 
tegorien Abschnitte auf der latenten 
Dimension entsprechen. Innerhalb dieser 
Abschnitte ist jeweils die Antwortwahr- 
scheinliclikeit einer Kategorie am hoch- 
sten. Die Grenzen dieser Abschnitte sind 
durch die Schwellen definiert. Abbildung 
103 zeigt noch einmal die entsprechende 
Graphik aus Kapitel 3.3.1: 




Abbildung 103: Durch Schnittpunkte (Schwellen) 
definierte Abschnitte auf der latenten Dimension 

Die Ordnung der Kategorien spiegelt sich 
in der Ordnung der Schwellenparameter 
wieder. Die Anwendung dieses Prinzips 




3.3 Modelle fur ordinale Itemantworten 



223 



auf die Klassenanalyse erscheint zunachst 
unmoglich, da es bei der Klassenanalyse 
gar keine latente Dimension gibt, auf der 
man irgendwelche Abschnitte einteilen 
konnte. Trotzdem kann man auch hier 
Sehwcllenwahrseheinliehkeiten definieren 
und das latent-class Modell so repara- 
metrisieren, dab es Schwellenparameter 
gibt. An deren Ordnung kann man dann 
ablesen, ob die Antwortkategorien geord- 
net sind, und man kann die Schwel- 
lenparameter zum Gegenstand von Re- 
striktionen machen, um weitere Parameter 
zu sparen. 

Die Schwellenwahrscheinlichkeit wird so 
wie in Kapitel 3.3.1 definiert und laBt sich 
mittels der Parameter des Modells (1) 
folgendermaBen darstellen: 



zwei GroBen ab: von der Lage der 
Schwelle x bei Item i, Zix, und von der 

itemspezifischen Zustimmungstendenz die- 
ser Klasse, 0 lg 



(4) 



Qixg 



exp(e ig -T ix ) 
l + exp(e ig -T ix ) 



Die Lage der Schwelle T 1X entspricht dem 
Abszissenwert des Wendepunktes, ist also 
analog zur Itemschwierigkeit die Schwel- 
lenschwierigkeit (einer bestimmten 
Schwelle bei einem bestimmten Item). Der 
Kurvenverlauf selbst beschreibt die Ab- 
hangigkeit der Schwellenwahrscheinlich- 
keit von der Zustimmungstendenz dieser 
Klasse g zu diesem Item i, 0; g . 



(3) 4ixg 



71 . 



ixg 



-l)g + *i 



fiir x > 0 . 



xg 



Ebenfalls wie in Kapitel 3.3.1 wird fur die 
Schwellenwahrscheinlichkeit die logisti- 
sche Funktion des dichotomen Rasch- 
Modells eingefuhrt, jedoch nicht als 
Funktion einer globalen Personenvariable 
0 V sondem als Funktion einer itemspe- 
zifischen Variable 0j g : 




Berechnet man z.B. eine 3-Klassenlosung, 
so nimmt 0 lg nur 3 Werte an, welche iiber 
die Funktion (4) drei Schwellenwahr- 
scheinlichkeiten definieren. Diese Schwel- 
lenwalirseheinlielikeiten hangen maBgeb- 
lich von der Schwellenschwierigkeit T; x 

ab, welche keinen Index g aufweist, also 
nicht klassenspezifisch ist. 

Die Schwellenschwierigkeiten t; x miissen 

aus demselben Grund normiert werden, 
wie die Itemschwierigkeiten im dichoto- 
men Rasch-Modell (vgl. Kap. 3.1. 1.2.2), 
d.h. es gilt: 
m 

(5) X Tj x =0 fiir alle i. 

X=1 



Abbildung 104: Die Schwellenwahrscheinlich- 

keit als Funktion einer itemspezifischen Variable 

Das bedeutet, die Wahrscheinlichkeit, eine 
Schwelle x zu uberschreiten, hangt von 



Setzt man in Gleichung (3) die Funktion 
(4) fiir die Schwellenwahrscheinlichkeiten 
ein und lost die Gleichung nach it, xg 

auf, so erhalt man 
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(6) Kixg 



exp(x9 ig - a ix ) 
m 

X exp(s0i g - cr is J 

s=0 



x 

mitaj x = ^Tj s und CT|o = 0. 

S=1 



Diese Ableitung wird hier nicht im Detail 
nachvollzogen, da sie vollig analog zu der 
entsprechenden Ableitung in Kapitel 3.3.1 
ist. Zu beachten ist wiederum, dab es 
keine 0-te Schwelle gibt, da es zwischen 
m+1 Kategorien nur m Schwellen geben 
kann. Die a ix -Parameter sind die kumu- 
lierten Schwellenparameter bis zur Kate- 
gorie x. 



Die durch (6) definierte Antwortwahr- 
scheinlichkeit kann jetzt in die Modell- 
gleichung (1) der Klassenanalyse einge- 
setzt werden und man erhalt das Klcis- 
senmodell fur ordinate Daten: 



(7)p(x vi =x)=X 

g=l 



exp(x6 ig - o ix ) 
X exp(s0 ig -a is ) 

s=0 



Anhand der Parameteranzahl labt sich 
nachvollziehen, dab es sich bei diesem 
Modell tatsachlich um eine Restriktion der 
nomialen Klassenanalyse handelt. So sind 
bei 5 Items und 2 Klassen 10 Zustim- 
mungstendenzen 9; g zu schatzen. Die 5 

Items haben 4 Kategorien, also 3 Schwel- 
len. Wegen der Normierungsbedingung 
(5) sind nur 2 der 3 Schwellenparameter 
unabhangig, so dab 5-2=10 Schwellen- 
parameter zu schatzen sind. Gemeinsam 
mit einem unabhangigen Klassen- 
grbbcnparameter u sind dies insgesamt 

10+10+1=21 Parameter. 



Die allgemeine Formel zur Berechnung 
der Parameteranzahl n p lautet bei diesem 

Modell: 

(8) n p = k- G + k(m-l) + (G-l). 

Bei der normalen Klassenanalyse werden 
fur dasselbe Datenbeispiel 2.5.3+1=31 Pa- 
rameter, also 10 Parameter mehr ge- 
schatzt. 

Die Einsparung von Parametern ergibt 
sich bei dem ordinalen Modell allein 
daraus, dab die Schwellenparameter Tj x 
klassenunabhdngig sind. Wiirde man fiir 
jede Klasse eigene Schwellenparameter 
vorsehen, also dreifach indizierte Parame- 
ter Tj X g (vgl. Kap. 3.3.4), so ergabe sich 
keine Reduktion der Parameteranzahl. 



Datenbeispiel 

Es ergeben sich die folgenden Parame- 
terschatzungen bei 2 latenten Klassen: 





9 ig : 


g = 1 


g = 2 


1 


-.42 


1.25 


2 


-1.07 


■SB 


i = 3 


-1.54 


MSB 


4 


-0.81 


1.70 


5 


-1.49 






Jtj = .64 


%2 - -36 



An diesen Klassenparametern ist abzu- 
lesen, dab es sich um zwei geordnete 
Klassen handelt und die zweite Klasse 
die hoheren Zustimmungstendenzen zu 
alien Items hat. 
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T ix : 


x = 1 


x = 2 


x = 3 


1 


-2.45 


.62 


1.83 


2 


-1.81 


.26 


1.55 


i = 3 


-2.64 


.80 


1.85 


4 


-3.06 


.41 


2.65 


5 


-2.33 


.86 


1.46 



Wie bei den Schwellenlokationen des 
ordinalen Rasch-Modells (Kap. 3.3.1) 
zeigt sich, dab die erste Schwellen- 
distanz stets wesentlich groBer ist als die 
zweite. Auch zeigen sich wieder bei Item 
4 die groBten Distanzen. 

Eine vollstandige Ubereinstimmung mit 
den Schwellen des quantitativen Modells 
st bei der 2-Klassenlosung nicht zu 
erwarten, da hier lediglich 2 Eigen- 
schaftsauspragungen unterschieden wer- 
den (was dem Datensatz nicht ange- 
messen ist). 

In diesem Datenbeispiel sind die Schwel- 
len geordnet, d.h. bei jedem Item ist die 
erste Schwelle am leichtesten und die drit- 
te am schwersten. Mit derselben Argu- 
mentation wie bei quantitativen Modellen 
laBt sich dies als Bestatigung der Annah- 
me werten, daB die Antwortkategorien 
eine Rangordnung darstellen. 

Als ein anderes Kriterium fur die Ordnung 
der Antwortkategorien wurde weiter oben 
angefiihrt, daB die Wahrscheinlichkeits- 
verteilung der Antwortvariable fur jedes 
Item eingipflig sein muB. Betrachtet man 
diese Verteilungen fiir das gegebene Da- 
tenbeispiel, so ist auch dieses Kriterium in 
beiden Klassen erfiillt: 



Klasse 1 





i=l 


i=2 


i=3 


i=4 


i=5 


0 


.09 


.27 


.23 


.07 


.28 


x = 1 


.66 


.57 


.70 


.71 


.65 


2 


.23 


.15 


.07 


.21 


.06 


3 


.02 


.01 


.00 


.01 


.01 






Klasse 2 








i=l 


i=2 


i=3 


i=4 


i=5 


0 


.01 


.02 


.02 


.00 


.03 


x = 1 


.25 


.30 


.44 


.16 


.47 


2 


.48 


.47 


.41 


.60 


.35 


3 


.26 


.21 


.13 


.24 


.15 



Dies ist keine zufallige Ubereinstimmung. 
Vielmehr sind die Antwortvariablen inl- 
ine r eingipflig verteilt, wenn die Schwel- 
lenparameter geordnet sind. Steigt namlich 
die Schwierigkeit der Schwellen von Kate- 
gorie zu Kategorie an, nimmt also die 
Schwellenwahrscheinlichkeit ab, so ist die 
Verteilung der Antwortvariable eingipflig. 
Dabei existieren weitere Regelhaftig- 
keiten. 



Die Verteilung der Antwortvariablen 
bei sinkenden Schwellenwahrschein- 
lichkeiten 

Sind alle Sehwcllcnwahrsehcinliehkeiten 
(SW) kleiner als 0.5, so sinken auch die 
Kategorienwahrscheinlichkeiten (KW) 
von Kategorie zu Kategorie. 



Bei spiel 



X 


0 


1 


2 


3 


4 


SW 


- 


.43 


.40 


.29 


.20 


KW 


.40 


.30 


.20 


.08 


.02 
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Dieser Effekt laBt sich an der Definition 
der SW ablesen (vgl. (3)): 



SW(x)= 



KW(x) 

KW( x - 1) + KW(x) 



Nach dieser Gleichung ist SW(x) nur 
dann kleiner als 0.5, wenn 
KW(x)<KW(x-l). Das bedeutet, daB die 
KW(x) mit aufsteigendem x kleiner wer- 
den. 

Sind alle SW>0.5, so steigen die KW an. 



Bei spiel 



X 


0 


1 


2 


3 


4 


SW 


- 


.60 


.57 


.55 


.54 


KW 


.10 


.15 


.20 


.25 


.30 



Auch dies ist aus der Definition der SW 
ersichtlich, da SW(x) nur dann groBer als 
0.5 ist, wenn KW(x)>KW(x-l) ist. Das 
bedeutet, daB die KW groBer werden. 



Sind schlieBlich die SW(x) fur kleines x 
groBer als 0.5 und fur groBes x kleiner 
als 0.5, so steigen die KW(x) erst an und 
sinken dann wieder ab, sind also ein- 
gipflig- 



Bei spiel 



X 


0 


1 


2 


3 


4 


SW 


- 


.66 


.64 


.42 


.29 


KW 


.10 


.20 


.35 


.25 


.10 



Diese Eigenschaft ergibt sich aus den 
zuvor Gesagten. 



Es bleibt festzuhalten, daB geordnete 
Schwellenparameter bei Modell (7) die 
Eingipfligkeit der Antwortverteilungen 
implizieren. Die Umkehrung gilt nicht: 
nicht jede eingipflige Antwortverteilung 
impliziert sinkende Schwellenwahrschein- 
lichkeiten. Die Ordnung der Schwellen- 



parameter ist somit ein strengeres Krite- 
rium fiir die Ordnung der Antwortkate- 
gorien. 

Dabei kann es gute Grunde geben, warum 
die Schwellen bei einer Fragebogenana- 
lyse nicht geordnet sind. Hierfiir konnen 
response sets verantwortlich sein (s. Kap. 
3.3.2) oder die Etikettierung der Ant- 
wortkategorien (s. Kap. 2. 3. 1.3). Erhalt 
man bei einer Fragebogenanalyse unge- 
ordnete Schwellenparameter und lassen 
sich diese auf Konstruktionsmerkmale des 
Fragebogens zuriickfiihren, so konnen die 
Daten trotzdem mit einem Testmodell fiir 
ordinale Daten analysiert werden. Bei 
einer Revision des Fragebogens oder einer 
erneuten Datenerhebung sollte man den 
Fragebogen entsprechend andern. 

Die Itemprofile der latenten Klassen lassen 
sich bei diesem Modell auf zweierlei 
Weise darstellen. Eine der beiden Mog- 
lichkeiten wurde bereits in Abbildung 100 
dai'gestellt, namlich Itemprofile in Form 
von Erwartungswertprofilen. Die klas- 
senspezifischen Antwortwahrscheinlich- 
keiten lassen sich mit Hilfe von Gleichung 
(6) aus den Modellparametern bestimmen 
und gemaB Gleichung (2) in Erwartungs- 
werte unn'echnen. Fiir das Datenbeispiel 
ergeben sich die folgenden Profile. 

Erw(x vj |g) 




0,5 

o' 1 -■ — 

1 2 3 4 5 



Abbildung 105: Die Erwartungswertprofile der 2- 
Klassenlosung des ordinalen Klassenmodells (7) 
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Die zweite Moglichkeit besteht darin, die 
Profile cler itemspezifischen Zustim- 
mungstendenzen 0jg zu betrachten. Diese 
sehen fiir das Datenbeispiel folgender- 
maBen aus: 



6 ig 




Abbildung 106: Die Profile der Parameter der 2- 
Klassenldsung 

Beide Alien von Itemprofilen sind dhnlich 
in ihr em Verlauf und full re n im allge- 
meinen zu denselben Inteipretationen. Ins- 
besondere zeigen sie in gleicher Weise an, 
ob es sich um geordnete Klassen handelt: 
Wenn die Erwartungswertprofile iiber- 
schneidungsfrei sind, so sind es auch die 
Parameterprofile und umgekehrt. Trotz- 
dem gibt es Falle, in denen die eine oder 
andere Art vorzuziehen ist. 



Parameterprofile Oder Erwartungswert- 
profile ? 

Beide Allen, die Antwortprofile der Klas- 
sen darzustellen, haben ihre Vor- und 
Nachteile. An den Profilen der Parameter 
(vgl. Abb. 106), kann man erkennen, ob 
auf die Daten eher das ordinale Rasch- 
Modell paBt: in diesem Fall niussen die 
Parameteiprofile parallel verlaufen, also 
die Parameterdifferenzen zwischen je zwei 
Klassen muBten fiir alle Items konstant 
sein. Der Nachteil besteht darin, daB aus 
diesen Profilen nur schwer auf erwartete 
Kategorienhaufigkeiten geschlossen wer- 



den kann, da diese auch von den Schwel- 
lenparametem x ix abhangen. 

Fetzteres ist gerade der Vorteil von Er- 
wartungswertprofilen (vgl. Abb. 105): Sie 
drucken sehr anschaulich das Niveau der 
Itemantworten auf der Antwortskala aus. 
Es laBt sich leichter beurteilen, ob der 
Unterschied zwischen den mittleren 
Itemantworten zweier Klassen fiir die 
Interpretation bedeutsam ist. 



Beide Alien von Profilen sagen nichts 
dariiber aus, wie stark die Dispersion der 
Itemantworten ist, also wie stark sie iiber 
die Kategorien streuen. Die Streuung der 
Itemantworten hangt von den Schwellen- 
parametern x ix ab: Sind die Schwellen- 
abstande klein, so ist die Streuung grofi, 
da relativ viele Antworten in die beiden 
auBeren Kategorien entfallen. Sind die 
Schwellenabstande groB, ist die Streuung 
klein (vgl. Kap. 3.3.2). 

Da die Schwellenparameter jedoch klas- 
senunspezifisch sind, ist die Streuung der 
Itemantworten in diesem Modell keine 
Eigenschaft einer Klasse, sondern eine 
Eigenschaft des Items in alien Klassen. 
Modelle, bei denen die Schwellendistan- 
zen und somit die Streuung der Antworten 
klassenspezifisch sind, werden im nach- 
sten Kapitel behandelt. 



Literatur 

Clogg (1979) diskutiert die Anwendung 
der Klassenanalyse auf ordinale Daten, 
wobei einzelne Kategorienwahrscheinlich- 
keiten auf Null fixiert werden. Rost (1985) 
behandelt das Kriterium der Unimodalitat 
der Antwortverteilungen und schlagt ein 
Klassenmodell vor, in deni die Antworten 
binomialverteilt sind. Auf Rost (1988b, c) 
geht das ordinale Klassenmodell (7) mit 
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klassenunspezifischen Schwellenparame- 
tern zuriick. Da es sich bei diesem Modell 
um eine additive Zerlegung der logisti- 
schen Parameter der Klassenanalyse han- 
delt, ist es auch ein Spezialfall der linear 
logistischen Klassenanalyse fur mehrkate- 
gorielle Daten von Formann (1992, vgl. 
Kap. 3.4.3). Anwendungen des ordinalen 
Klassennrodells beschreiben Tarnai & 
Rost (1991) und Rost & Gresele (1994a, 

bL 



U bungsaufgaben 

1 Berechnen Sie die Schwellenwahr- 
scheinlichkeiten fur die beiden Vertei- 
lungen in Abbildung 102. Die genauen 
Werte lauten: 0.3, 0.05, 0.5 und 0.15 
fur das linke Bild und 0.25, 0.35, 0.1 
und 0.3 fur das rechte Bild. Konstru- 
ieren sie ein Beispiel, in denr eine ein- 
gipflige Antwortverteilung keine sin- 
kenden Schwellcnwahrsehcinliehkciten 
hat. 

2 Ein Item hat die Schwellenparameter 
Xij^-1.0, Xi 2 = 0.0 und x i3 = +1.0. 

Welche A nt wort wall rse hcinliehkcite n 

haben die Personen einer Klasse nrit 
der Zustinrmungstendenz 0jg = 0.5 bei 

diesem Item? 

3 Mit welchen Wahrscheinlichkeiten 
wird das Antwortmuster x = 
(2, 2, 2, 2, 2) den beiden Klassen im 
Datenbeispiel zugeordnet? 

4. Berechnen Sie nrit WINMIRA, wie 
grol;> die nrittleren Zuordnungswahr- 
scheinlichkeiten (‘Treffsicherheiten’, s. 
Kap. 3. 1.2.2) in der 2-Klassenlosung 
des Datenbeispiels sind. 



3.3.4 Klassenmodelle ftir 
Ratingskalen 

In Kapitel 3.3.2 wurde dargestellt, dab 
man die Schwellenparameter des ordinalen 
Rasch-Modells derart restringieren kann, 
dab bestimmte Annahmen tiber den Ge- 
brauch der Antwortskala inr Modell abge- 
bildet werden. Drei verschiedene Annah- 
men wurden dort in Untermodelle des 
ordinalen Rasch-Modells umgesetzt. 

Diese Annahmen beziehen sich auf die 
Schwellenabstdnde, weil sich in ilinen die 
Grofie der Antwortkategorien ausdriickt. 
Ein grober Schwellenabstand bedeutet, 
dab die dazwischen liegende Kategorie 
sehr grob ist, d.h. dab relativ viele Ant- 
worten auf sie entfallen. Wodurch die 
Grobe einer Kategorie letztlich bedingt ist, 
d.h. ob sie von dem Etikett der Kategorie, 
von Antwortpraferenzen der befragten 
Personen oder von der Formulierung der 
Items abhangt, kann im Einzelfall unter- 
schiedlich sein. 

Die Grobe der Schwellenabstande spiegelt 
aber auch die Streuung der Itemantworten 
iiber die Kategorien wieder. Sind namlich 
die Schwellenabstande grofi, so sammeln 
sich die Antworten in den nrittleren Kate- 
gorien, die Streuung ist also klein. Sind 
die Schwellenabstande klein, so haufen 
sich die Antworten in den auberen Kate- 
gorien, die Streuung ist grofi. Ein ein- 
faches Zahlenbeispiel mit Schwellenwahr- 
scheinlichkeiten (SW) und Kategorien- 
waln'scheinliclrkeiten (KW) verdeutlicht 
dies. 
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X 


0 12 3 4 


groBe Abstande 


SW 


230 .71 .29 . 20 


KW 


.05 .20 .50 .20 .05 


kleine Abstande 


SW 


.71 .55 .45 .29 


KW 


.10 .25 .30 .25 .10 



Der mittlere Schwellenabstand bei einem 
Item kann daher auch als ein MaB fur die 
Streuung der Antworten bei diesem Item, 
also als ein Dispersionsma.fi, gelten. 



Drei Annahmen uber den Gebrauch 
der Antwortskala 

Die erste Annahme besagt, daB alle Items 
dieselben Schwellenabstande haben. Diese 
Annahme ist bei Ratingskalen sinnvoll, 
bei denen fur alle Items dieselben Ant- 
wortkategorien verwendet werden. Die 
Schwellenabstande sind nach dieser An- 
nahme eine Eigenschaft cles Antwortfor- 
mates und nicht me hr der Items. Statt der 
doppelt indizierten Parameter Tj x enthalt 
das Modell nur noch einfach indizierte Pa- 
rameter z x , die fur alle Items gelten. Man 
spart sehr viele Parameter, denn statt 
k-(m-l) braucht man nur noch m-1 unab- 
hangige Parameter. Modelle, die auf dieser 
Annahme basieren, heiBen Ratingskalen- 
Modelle. 

Die zweite Annahme besagt, daB alle Ka- 
tegorien denselben Schwellenabstand 
haben, es handelt sich also um eine Aqui- 
distanzannahme. Dieser konstante Ab- 
stand kann jedoch fur jedes Item unter- 
schiedlich groB sein, er ist nur innerhalb 
der Items iiber alle Kategorien hinweg 
konstant. Eine solche Annahme ist dann 



sinnvoll, wenn man ein Antwortformat 
verwendet hat, bei dem alle Kategorien 
gleich groB sein sollen, sich jedoch die 
Items in ihrer Streuung iiber die Kate- 
gorien unterscheiden diirfen. Statt der 
Schwellenparameter T 1X enthalt das Mo- 
dell einen Distanzparameter 8, als wei- 
teren Itemparameter. Durch den Koef- 
fizienten dieses Parameters (x-(m+l)/2), 
wird erreicht, daB jede Schwelle durch 
ihren Abstand zum Mittelpunkt aller 
Schwellen definiert wird (vgl. Kap. 3.3.2). 
Statt k-(m-l) unabhangiger Schwellenpa- 
rameter enthalt das Modell nur k Distanz- 
parameter. Modelle, die auf dieser Annah- 
me basieren, heiBen A quid is ta nzmodelle. 

Die dritte Annahme stellt eine Kombina- 
tion aus den beiden ersten Annahmen dar. 
Es wird angenommen, daB die Schwellen- 
abstande eine Eigenschaft des Antwort- 
formates, und daher fur alle Items gleich- 
artig sind. Liegen z. B. die beiden ersten 
Schwellen dichter zusammen als die zwei- 
te und dritte Schwelle, so trifft dies fur 
alle Items zu. Das Modell enthalt die item- 
unabhangigen Schwellenparameter T x . 
Trotzdem soli der EinfluB der Items auf 
die Streuung der Antworten und somit auf 
die Schwellenabstande beriicksichtigt wer- 
den. Das heiBt, es wird zusdtzlich ein Di- 
stanzparameter 5j eingefuhrt, der die 
Schwellenabstande bei jedem Item um den 
Betrag 5j vergroBern oder verkleinem 
kann. Je groBer dieser Parameter fur ein 
Item ist, desto kleiner ist die Streuung 
oder Dispersion der Antworten iiber die 
Kategorien. Modelle, die auf dieser 
Annahme basieren, heiBen Dispersions- 
modelle. Sie enthalten statt k-(m-l) un- 
abhangiger Parameter nur (k-l)+(m- 1 ) 
Parameter, die die Schwellenabstande fest- 
legen. 
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Abbildung 107 veranschaulicht diese 3 
Annahmen graphisch. 

Ratingskalen 



I I I I 

Aquidistanz 

I I I I 

I I I 

I I I I 



Dispersion 



Die folgende Tabelle gibt einen Uberblick 
iiber die drei Modellgleichungen und die 
jeweiligen Normierungsbedingungen. Zur 
Vereinfachung der Darstcllung sind je- 
weils nur die Restriktionen fur die Schwel- 
lenparameter X] x angegeben, also jene 
Ausdrucke, die man in der Modell- 
gleichung fur das ordinale Klassenmodell 
fiir Tj x einsetzen muB (vgl. (6) und (7) in 
Kap. 3.3.3). Diese Grundgleichung lau- 
tet: 



(1) P (x vi = x)=X jc 



exp 



x 9 



'g 



X As 



S=1 



g=l 



g 



f 



X ex P 

s=0 



S0 



V 



ig 



■srl 



i i i i 

I I L 



Abbildung 107: Die drei Annahmen liber die 
Schwellendistanzen, symbolisiert fiir je drei Items 
mit 5 Kategorien 

Auch bei einer klassifizierenden Testaus- 
wertung macht es Sinn, solche speziellen 
Modelle anzuwenden, wenn man Rating- 
skalen als Antwortfoimate verwendet hat. 
Zum Beispiel kann es sinnvoll sein, die 
latenten Klassen unter der Annahme aqui- 
distanter Schwellen zu ermitteln. Wenn 
diese Annahme auf die Daten zutrifft, so 
werden sich auch die Itemprofile des 
Aquidistanzmodells kaum von den Item- 
profilen des unrestringierten ordinalen 
Klassenmodells (vgl. (7) in Kap. 3.3.3) 
unterscheiden. Es konnen sich jedoch auch 
erhebhch veranderte Itemprofile zeigen, 
wenn diese Annahme eine starke Neben- 
bedingung fiir die Daten darstellt. Ob die 
Annahme dann beibehalten werden kann, 
laBt sich anhand von PriifgroBen fiir Mo- 
dellvergleiche beurteilen (Kap. 5.1). 



X ix = 


Normierung 


n P 


(2) Ratingskalen-Modell 


X x 


t 0 = 0 
m 

X T x=0 

X=1 


m - 1 


(3) Aquidistanzmodell 




keine 


k 


(4) Dispersionsmodell 


( m + 1 ) x 
+1 X 2 joj 


x o ~ 0 
m k 

X x x = X 5 .=° 

x— 1 i=l 


k+m-2 



Tm Dispersionsmodell ist es erforderhch, 
die 5j-Parameter auf Summe = 0 zu nor- 
mieren, da mit den t x -Parametern die 
mittleren Schwellendistanzen bereits fest- 
gelegt sind. Die Dispersionsparameter 
drucken in diesem Modell lediglich die 
Abweichungen von diesen mittleren Dis- 
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tanzen aus und die Summe von Abwei- 
chungen muB stets Null ergeben. 

In der dritten Spalte ‘n p ’ ist nur die Anzahl 

der Schwellen- bzw. Distanzparameter 
aufgefiihrt. Zur Berechnung der Anzahl 
alter Modellparameter sind jeweils noch 
G-l u nabhangige KlassengroBenparameter 
Kg und G k itemspezifische Zustim- 

mungstendenzen 0; g hinzuzuzahlen. 



Datenbeispiel 

Die Parameter des Dispersionsmodells 
lauten fiir die Beispieldaten: 





0ig- 


g= 1 


g = 2 


1 


-.44 


1.25 


2 


-1.00 


0.77 


i = 3 


-1.56 


0.64 


4 


-0.73 


1.73 


5 


-1.51 


0.49 




7t, = .64 


7p> = .36 



8 i: 



-.02 



-.58 



+.12 



+.68 



.20 





x = 1 


<N 

II 

X 


x = 3 




-2.46 


0.57 


1.89 



Aus den x x - und 8j-Parametem lassen 
sich die Schwellenlokationen ruckrech- 
nen, welche sich direkt mit den X ix -Para- 
metern des unrestringierten Modells ver- 
gleichen lassen: 





x = 1 


x = 2 


x = 3 


1 


-2.44 


.57 


1.87 


2 


-1.88 


.57 


1.31 


i = 3 


-2.58 


.57 


2.01 


4 


-3.14 


.57 


2.57 


5 


-2.26 


.57 


1.69 



Ein Vergleich mit den Parametern des 
unrestringierten Modells in Kapitel 
3.3.3 zeigt, daB es relativ gut gelingt, 
die Schwellenlokationen und Zustim- 
mungstendenzen mit dieser Restriktion 
zu erfassen. 



Ordinale Testdaten mit diesen restrin- 
gierten Klassenmodellen auszuwerten, hat 
gegenuber einer Analyse mit quantitativen 
Testmodellen einen entscheidenden Vor- 
teil, der die Polung der Items betrifft. Bei 
quantifizierenden Testmodellen miissen 
alle Items gleichsinnig gepolt sein: enthalt 
ein Fragebogen negativ fomiulierte Items, 
so sind diese vor der Testanalyse umzu- 
polen. In diesem Fall ist aber die Annah- 
me des Ratingskalen- und des Disper- 
sionsmodells nicht mehr sinnvoll, da sich 
dieselbe Schwellendistanz bei negativ 
formulierten Items auf eine andere 
Antwortkategorie bezieht als bei positiv 
formulierten Items (vgl. Kap. 3.3.2). 

Bei der Klassenanalyse fur ordinale Daten 
brauchen die Items vorher nicht umgepolt 
zu werden, so daB hier die Anwendung 
des Ratingskalen-Modells auch dann mog- 
lich ist, wenn der Fragebogen positiv wie 
negativ formulierte Items enthalt. Das- 
selbe gilt fiir das Dispersionsmodell. 

Ansonsten sind diese drei Modelle mit 
restringierten Schwellendistanzen vollig 
analog konstruiert zu den drei ent- 
sprechenden quantitativen Modellen, die 
in Kapitel 3.3.2 beschrieben wurden. 
Durch einen Vergleich der jeweils 
zueinander passenden quantitativen und 
klassifizierenden Testmodelle laBt sich 
somit unter Beibehaltung der Annahme 
iiber die Schwellendistanzen priifen, ob 
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die latente Personenvariable quantitativ 
oder kategorial ist. 

Verlaufen die Profile der Klassenparame- 
ter 0 ig (vgl. Kap. 3.3.3) annahernd paral- 
lel, so erfaBt der Fragebogen eine quan- 
titative Variable. In diesem Fall miissen 
auch die Schwellenparameter in beiden 
Modellen iibereinstimmen. Aus den Bei- 
spielrechnungen ist ersichtlich, dal) die 
Parameter des Dispersionsmodells recht 
gut mit den entsprechenden Parametern 
des Dispersions-Rasch-Modells iiberein- 
stinmien (s. Kap. 3.3.2). 



Neben dieser Parallelitat zu den quantita- 
tiven Modellen gibt es jedoch hier eine 
Erweiterungsmoglichkeit, die es dort nicht 
gibt. Es ist namlich bei den Modellen (1) 
bis (4) ohne weiteres moglich, die Para- 
meter, die die Schwellendistanzen para- 
metrisieren, also x IX bzw.x x und 5j auch 

als klassenspezifische Parameter zu 
konzipieren, d.h. mit einem zweiten Index 
g zu versehen. 

Dadurch werden die Schwellenabstande zu 
einer klassenspezifischen GroBe, sind also 
von der Personenvariable abhangig. Dies 
geht bei den quantitativen Modellen des- 
halb nicht so leicht, weil dort die Perso- 
nenvariable sehr viele Auspragungen an- 
nehmen kann (im Prinzip fiir jede Person 
eine) und die Schwellendistanzen damit zu 
einem zweiten Personenparameter wiirden. 

Macht man die Schwellenparameter des 
unrestringierten Klassenmodells (1) zu 
klassenspezifischen GroBen, so erhalt man 
die Modellgleichung: 



(5) p(x vi =x)= E 



exp 



x0i - £ T 



ISg 



S=1 



8 1 E ex P s0 i g - E T it 



A ' 



ig "itg 

s=0 V t=l ) 



Fiir dieses Modell gilt die Normierungs- 
vorschrift: 

x j0g =0 und 



X X ixg = 0 fur alle i und g. 



X— 1 



so daB das Modell neben den G-l 
KlassengroBenparametem G k Klassenpa- 
rameter 0 lg und (m-l).G.k unabhangige 
Schwellenparameter Xi xg enthalt. Das sind 

zusanmien G-l+G k m Parameter, genau 
so viele, wie das noimale Klassenmodell 
fiir poly tome Daten enthalt (Gleichung (1) 
in Kap. 3.3.3, s. a. Kap. 3.2.1). 

Tatsachlich sind beide Modelle aquivalent, 
d. h. die Parameter des einen Modells sind 
nur eine algebraische Transformation der 
Parameter des anderen Modells. Bei 
Modell (5) handelt es sich also um kein 
restringiertes Modell, sondern um die 
normale Klassenanalyse, wobei die 
Parameter so transformiert sind, daB man 

die Klassenparameter (0 ig ) und Schwel- 
lenparameter (xj X g ) getrennt hat. 



Zur Aquivalenz von M odell (5) und der 
'normalen’ Klassenanalyse 

Das normale Modell der Klassenanalyse 
mehrkategorieller Daten (s. Kap. 3.2.1) 

P\^vi = x J = S 71 g ^ixg 
g=l 
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laGt sich auch mit logistisclien Parametem 
otj xg schrcihen, so wie das im Kapitel 

3. 1.2.4 iiber lokalisierte Klassen bereit: 
fur die dichotome Klassenanalyse gemacht 
wurde: 




s=0 



Wain-end die 7 t; X g -Parameter zwischen 0 
und 1 liegen, liegen die aixg-Parameter 
zwischen und +°°. Statt der Normie- 
mngsbedingung 

m 

X ^ixg = 1 
x=0 

im ersten Fall, gilt im zweiten Fall die 
Normierung 

m 

a ixg — ® > 

x=0 

was in beiden Fallen bedeutet, daG es 
G-km unabhangige Parameter gibt. 

Modell (5) ergibt sich, indem man die 
OCj xg -Parameter addititv aufspaltet: 

x 

a ixg ~ x ®ig — X isg 

S=1 

und iiber erweiterte Normierungsvor- 
schriften dafiir Sorge tragt, daG die 
Parameteranzahl konstant bleibt. 



Die drei restringierten Modelle mit klas- 
senspezifischen Schwellendistanzen lassen 
sich als Untemiodell von (5) darstellen, 
wobei lediglich die Schwellenparameter 
Tj X g in (5) durch die entsprechenden, in 



der folgenden Tabelle wiedergegebenen 
Ausdrucke ersetzt werden miissen. 



T ixg “ 


Normierung 


n P 


(6) Klassenspezifisches 
Ratingskalen-Mode 


11 


X xg 


x 0g = 0 

m 

X X xg = 0 , 

X— 1 

fur alle g 


G(m-l) 


(7) Klassenspezifisches 
Aquidistanzmodell 


( x -“ 2 +1 >, 8 


keine 


Gk 


(8) Klassenspezifisches 
Dispersionsmodell 


T xg + [ x -~2~ 


x 0g = 0 

m k 

X X xg = X = 0 , 

x=l i=l 

fur alle g 


G(k+m-2) 



Die in der letzten Spalte angegebene 
Parameterzahl gibt jeweils nur die Anzahl 
der Schwellenparameter wieder. Hinzu 
kommen bei alien Modellen G-l Klassen- 
groGenparameter und G k Zustinmiungs- 
tendenzen. 

Die Schwellenparameter T x und 5, als 
klassenspezifische Parameter zu definie- 
ren, fiihrt zwar wieder zu einer Erhohung 
der Parameteranzahl. Dafiir bieten diese 
Modelle aber die Moglichkeit, all jene 
Effekte auf die Schwellenabstande zu 
analysieren, die von den Personen aus- 
gehen. Dies sind vor allem die Effekte, die 
durch unterschiedliche response sets der 
Personen bedingt sind. 
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DaB sich die response sets der befragten 
Personen in der GrbBc der Schwellenab- 
stande niederschlagen, wurde bereits in 
Kapitel 3.3.2 ausgefiihrt. Dort muBten 
jedoch alle befragten Personen dasselbe 
response set aufweisen, damit es sich in 
den Schwellenparametern ausdrucken 
konnte. Bei den Modellen (6), (7) und (8) 
konnen sich dagegen in einer latenten 
Klasse Schwellendistanzen ergeben, die 
eine Tendenz zum zentralen Urteil wie- 
derspiegeln, wahrend in einer anderen 
Klasse Schwellendistanzen geschatzt wer- 
den, die eine Tendenz zum extremen Urteil 
reflektieren. 

Damit sind diese Modelle geeignet, Perso- 
nengruppen mit unterschiedlichen respon- 
se sets zu identifizieren und auseinander 
zu halten. Hierin muB der eigentliche Nut- 
zen dieser klassenspezifischen Parametri- 
sierung von Schwellenparametern gesehen 
werden. 



Datenbeispiel 

Es ergeben sich folgende Parameter- 
werte des klassenspezifischen Disper- 
sionsmodells (8) fur das gegebene 
Datenbeispiel: 





6 ig 


5 >g 


g= 1 


g = 2 


g= 1 


g = 2 


1 

2 

i = 3 

4 

5 


-.26 


1.22 


.02 


-.12 


-.84 


.97 


-.62 


-.26 


-1.35 


.57 


.12 


-.14 


-.42 


2.02 


.33 


1.12 


-1.58 


.43 


.15 


-.60 




tc j = .65 


n 2 ~ -35 







X xg 


x = 1 


x = 2 


x = 3 


g= 1 


-2.32 


.84 


1.48 


g - 2 


-2.48 


.46 


2.02 



Wiederum scheint hier das vierte Item 
eine Sonderrolle zu spielen (vgl. Kap. 
3.3.2), denn in der zweiten Klasse 
werden groBere Grunddistanzen der 
Schwellen geschatzt (s. untere Tabelle), 
die aber fiir alle Items wieder verringert, 
nur fiir das 4. Item noch mehr vergroBert 
werden (s. rechte Spalte in der oberen 
Tabelle). 



Die hierarchische Struktur aller hier 
dargestellten latent-class Modelle, ein- 
schlieBlich der ordinalen Klassenanalyse 
(Kap. 3.3.3, Gleichung (7)) gibt die fol- 
gende Abbildung wieder. 




A bbildung 108: Die hierarchische Struktur aller 
ordinalen Klassenmodelle 
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Dort sind Modelle miteinander verbunden, 
von denen das eine (defer liegende) ein 
Untermodell des anderen ist, was fur die 
Modellgeltungskontrolle und die gezielte 
Priifung einzelner Annahmen wichtig ist 
(s. Kap. 5). 

Die vier Modelle der vorcleren Ebene 
ergeben sich aus den mit ihnen verbun- 
denen Modellen der hinteren Ebene 
jeweils durch die Annahme, dab alle 
Schwellendistanzen klassenunspezifisch 
sind, d.h. fur alle Personen konstant sind. 

Die unrestringierte latent-class Analyse 
fiir mehrkategorielle Daten stellt das 
Obermodell fiir samtliche hier behandelten 
Modelle dar (vgl. Modell (5)). 

Es handelt sich somit um ein System von 
insgesamt 8 unterschiedlichen Modellen, 
aus denen fiir einen gegebenen Frage- 
bogen oder Test anhand der Annahmen 
iiber das Antwortverhalten eine Auswahl 
getroffen werden kann. 



2. Berechnen Sie anhand der letzten Bei- 
spielrechnung die Schwellenlokationen 
in der ersten Klasse. 

3. Berechnen sie mit WINMIRA das klas- 
senunspezifische und das klassenspe- 
zifische Aquidistanzmodell und ver- 
gleichen Sie die Ergebnisse. Welches 
Item hat die grobte, welches die 
kleinste Dispersion der Itemantworten? 



Literatur 

Die Klassenmodelle fiir Ratingdaten gehen 
auf Rost (1988b,c) zuriick. Rost (1988a, 
1990b) beschreibt das Dispersionsmodell. 
Ein Anwendungsbeispiel mit klassenspezi- 
fischen response sets bcsehrciben Giegler 
& Rost (1993). Weitere Anwendungs- 
beispiele berichten Backmund (1993) 
Frick et al. (1996), Schneewind (1992) 
Tamai (1989, 1994) Tamai & Wuggenig 
(1996) Vierzigmann (1993). 



U bungsaufgaben 

1. Wieviele unabhiingige Modellparame- 
ter wurden in der letzten Beispielrech- 
nung geschatzt (Modell (8) 2 Klassen, 
5 Items, 4 Kategorien)? 
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3.3.5 Mixed Rasch-Modelle fUr 
ordinale Daten 

Das mixed Rasch-Modell (vgl. Kap. 3.1.3) 
nimmt an, daB das Rasch-Modell nicht fur 
die gesamte Personenstichprobe gilt, son- 
dem in verschiedenen unbekannten Teil- 
stichproben, jeweils mit unterschiedlichen 
Modellparametern. Es stellt damit zu- 
gleich eine Verallgemeinerung des Rasch- 
Modells und der Klassenanalyse dar. 

Bevor die Verallgemeinerungen dieses 
Modells fur ordinale Daten und Rating- 
skalen dargestellt werden, wird zunachst 
auf deren Anwendungsmoglichkeiten ein- 
gegangen. 

Die Anwendungsbereiche des mixed 
Rasch-Modells erschlieBen sich auf 
zweierlei Weise, namlich einmal aus- 
gehend vom Rasch-Modell und einmal 
ausgehend von der Klassenanalyse. 

Vom Rasch-Modell zum mixed Rasch- 
M odell 

Geht man vom Rasch-Modell aus, d.h. 
mochte man eine quantitative Perso- 
nenvariable mit Hilfe von ordinalen Frage- 
bogendaten erfassen, so gibt es viele Falle, 
in denen diese Personenvariable nicht fUr 
die gesamte Stichprobe mefibar ist. Dies 
kann z.B. sein, wenn eine Personen- 
eigenschaft oder Einstellung, die durch die 
Items angesprochen werden soil, nicht bei 
alien getesteten Personen ‘vorhanden’ ist, 
sondem nur bei solchen Personen, auf die 
diese Eigenschaft ‘paBt’ oder die iiberhaupt 
eine Einstellung dazu haben. 

Weiterhin kann es sein, daB diesselben 
Fragen bei unterschiedlichen Personen- 
gruppen unterschiedliche Personeneigen- 
schaften ansprechen, d.h. dieselben Fra- 



gen aufgrund eines anderen Verstand- 
nisses oder einer anderen Disposition be- 
antwortet werden. In diesen Fallen be- 
notigt man ein Rasch-Modell mit meh- 
reren latenten Klassen, das mixed Rasch- 
Modell. 

Wall rend diese beiden Anwendungsberei- 
che, namlich die Identifizierung skalier- 
barer Personengruppen und die Messung 
unterschiedlicher Eigenschaften mittels 
derselben Items, auch schon fur das dicho- 
tome mixed Rasch-Modell zutreffen (Kap. 
3.1.3), gibt es fur das ordinale mixed 
Rasch-Modell noch einen speziellen An- 
wendungsbereich. Bei Modellen fur ordi- 
nale Daten spiegeln die Schwellen- 
distanzen den Gebrauch der Antwortskala 
durch die befragten Personen wieder. In 
der GroBe dieser Schwellenabstande kon- 
nen sich daher response sets ausdrucken 
(Kap. 3.3.2). 

Bei Rasch-Modellen fur ordinale Daten 
(Kap. 3.3.1) und Ratingskalen (Kap. 3.3.2) 
miissen alle befragten Personen dasselbe 
response set haben, damit es sich in den 
Schwellenparametern ausdruckt. Bei der 
Testauswertung mittels des mixed Rasch- 
Modells ist es dagegen moglich, daB bei 
den Personen unterschiedliche response 
sets vorliegen und der Fragebogen trotz- 
dem bei alien Personen dieselbe Eigen- 
schaft erfaBt. Dann unterscheiden sich die 
Klassen nicht im Verlauf ihrer Itemprofile, 
sondern allein hinsichtlich ihrer Schwel- 
lendistanzen. Mann kann daher mit dem 
mixed Rasch-Modell auch dann eine 
quantitative Eigenschaft messen, wenn die 
fur normale Rasch-Modelle notwendige 
Voraussetzung gleicher Schwellenabstan- 
de fur alle Personen nicht erfiillt ist. 







3.3 Modelle fur ordinale Itemantworten 



237 



Von der K lassenanalyse zum mixed 
R asch-M odell 

st man daran interessiert, eine kategoriale 
Personenvariable zu identifizieren, d.h. 
Personen nach ihrcn Profilverlaufen iiber 
die kernantworten zu klassifizieren, so 
gibt es viele Falle, in denen trotzdem noch 
Variation zwischen den Personen inner- 
halb der Klassen angenommen werden 
mill.). Das bedeutet, die Personen unter- 
scheiden sich zunachst qualitativ hi n 
sichtlich ihrer mittleren Profile iiber alle 
Items. Jedoch liegen zusatzlich innerhalb 
der latenten Klassen quantitative Unter- 
schiede in dem Sinne vor, dab das Niveau 
dieses Profils auf unterschiedlicher Hohe 
liegt. 

Bei Klassenmodellen fur ordinale Daten 
Kap. 3.3.3) gibt das Profil der Erwar- 
tungswerte in einer Klasse an, welche 
Itemantworten bei jeder einzelnen Person 
dieser Klasse zu erwarten sind. Im mixed 
Rasch-Modell lassen sich ebenfalls Erwar- 
tungswertprofile darstellen, jedoch sind 
diese dann nur mittlere Profile aller Per- 
ionen einer Klasse. Die individuellen 
Erwartungswertprofde sind in ihrem Ver- 
lauf nahezu parallel zu diesem mittleren 
Profil, konnen aber deutlich darunter oder 
dariiber liegen: 



Erwtxl 




A bbi I dung 109: Mittleres Profil (durchgezogene 
Linie) und individuelle Profile in einer Klasse 



Somit ist das mixed Rasch-Modell ein 
Verfahren zur Klassifizierung von Perso- 
nen anhand ihres Antwortprofils, wobei 
das Niveau des Profils fur die Klassifi- 
kation keine Rolle spielt. 



Das mixed Rasch-Modell fur ordinale 
Daten labt sich durch Einsetzen der logi- 
stischen Funktion des ordinalen Rascli- 
Modells (vgl. Kap. 3.3.1) 




s=0 



fiir die bedingten Antwortwahrschein- 
lichkeiten 7tj xg im Modell der latent-class 

Analyse (vgl. Formel (1) in Kap. 3.3.3) 

/ \ G 

(2) p(X vi — X J — ^ Kg ^ixg 

g=l 

ableiten. Diese Kombination ergibt das 
mixed Rasch-Modell fur ordinale Daten 

_ Jv A G _ exp(xe vg -o ixg ) 

(3) p(X vi - xj - 2^ Jig m , 

8 ^ 5^ exp(s9 V g — ^isg ) 

s=0 

in dem sowohl die Personen- wie auch die 
Itemparameter klassenspezifisch sind, also 
g als zweiten Index haben. 

Wie im ordinalen Rasch-Modell stellen 
die Itemparameter kumulierte Schwellen- 
parameter dar 

x 

a ixg = X T isg 
s=l 

und es gelten die Normierungsbedingun- 
gen 

G 

I TC g = 1 

g=l 
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und innerhalb jeder Klasse 
k m 

x x ^x g =o 

i=l x=l 

und CjOg = 0 fur alle i . 

DaB die beiden erstgenannten Modelle tat- 
sachlich Untermodelle des mixed Rasch- 
Modells sind, laBt sich folgendermaBen 
nachvollziehen: Betragt die Anzahl der 
latent en Klassen lediglich 1, so ist der 
KlassengroBenparameter 7t g ebenfalls 1 
und die Indices g aller Modellparameter 
konnen entfallen. Es resultiert das ordinale 
Rasch-Modell (1). 

Gibt es dagegen keine Variation der Per- 
soneneigenschaft innerhalb der latenten 
Klassen, ddi. unterscheiden sich die Per- 
sonen innerhalb jeder latenten Klasse g 
nicht voneinander, so sind die Personenpa- 
rameter konstant, ddi. es gibt nur einen 
einzigen Personenparameter in jeder Klas- 
se, 0 V g = Qg Dieser einzige Parameter pro 
Klasse kann gegen die Normierungs- 
vorsclirift fur die Itemparameter ‘einge- 
tauscht’ werden, ddi. er kann entfallen, 
wenn man die x ix g -Parameter nicht mehr 

iiber die Items summennormiert. Damit 
resultiert eine logistische Schrcibweise der 
Klassenanalyse 

/ _ N G e xp(-qixg) 

P\ X vi - x j- X n g m ’ 

g=1 X ex Pl- a isg) 

s=0 

die der iiblichen Schrcibweise (Gleichung 
(2)) vollig Equivalent ist, da die beiden 
Alien von Parametern ineinander iiber- 
ftihrt werden konnen (vgl. Kap. 3.3.4): 



exp(-rtixg) 

rt ixg- m ' 

X ex Pl- a ixgJ 

s=0 

Das ordinale mixed Rasch-Modell ist also 
das gemeinsame Obermodell von der 
normalen Klassenanalyse und deni Rasch- 
Modell fur ordinale Daten. 

Datenbei spiel: Schwellenparameter 

In dieseni Kapitel wird ein anderes Da- 
tenbeispiel herangezogen, da die Neuro- 
tizismus-Items des NEOFFI-Fragebo- 
gens zur Illustration des mixed Rasch- 
Modells schlecht geeignet sind. Es wer- 
den aus demselben Fragebogen 5 Items 
zur Personlichkeitseigenschaft der Extra- 
version verwendet, namlich die Items 
Nr. 22, 27, 42, 47 und 52. Sie lauten: 

1. (22) Ich bin gerne im Zentrum 
des Geschehens. 

2. (27) Ich ziehe es gewohnlich 
vor, Dinge allein zu tun. 

3. (42) Ich bin kein gut gelaunter 
Optimist. 

4. (47) Ich fiihre ein hektisches 
Leben. 

5. (52) Ich bin ein sehr aktiver 
Menscli. 

Die mittlere Kategorie des urspriinglich 
j-stufigen Antwortformats wurde mit der 
Kategorie 'unzut ref fend zusammenge- 
legt, so daB die Daten 4-kategoriell sind. 
Das zweite und dritte Item wurde unige- 
polt, da beide Items in Richtung ‘Intro- 
version’ formuliert sind. Die Daten stam- 
men von denselben 1000 befragten Per- 
sonen wie die Daten der Neurotizismus- 
Items. Die folgende Tabelle gibt die 
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Kategorienhaufigkeiten dieses Datenbei- 
spiels wieder: 





i=l 


i=2 


i=3 


i=4 


i=5 


0 


68 


93 


49 


80 


10 


x= 1 


500 


566 


437 


621 


377 


2 


350 


301 


383 


230 


447 


3 


82 


40 


131 


69 


166 



Es ergeben sich die folgenden Schatzun- 
gen fiir die Schwellenparameter der 2- 
Klassenlosung des mixed Rasch-Mo- 
lells: 



X ixg 





x= 1 


x=2 


x=3 




7t[ =.71 




Klasse 






1 


-2.74 


0.47 


2.30 




2 


-2.76 


0.36 


4.37 




i = 3 


-3.89 


-0.02 


1.88 




4 


-3.08 


1.45 


4.03 




5 


-4.36 


-0.28 


2.27 




% 2 =-29 


Klasse 2 




1 


-1.37 


0.14 


1.62 




2 


-0.95 


1.73 


0.79 




i = 3 


-0.63 


0.28 


0.89 




4 


-0.56 


0.30 


0.93 




5 


-3.26 


-0.36 


0.47 





Die erste Klasse weist bei alien Items 
grofiere Schwellenabstande auf. Offen- 
sichtlich vemieiden die Personen dieser 
Klasse, in den beiden Extremkategorien 
zu antworten. 



Die Ergebnisse hinsichtlich der Klassen- 
unterschiede lassen sich wiederum in 
Form von Parameterprofilen oder als 
Erwartungswertprofile darstellen (vgl. 



Kap. 3.1.3 und 3.3.3). Als Itemschwierig- 
keit wird wie beim ordinalen Rasch- 
Modell der Mittelwert aller Schwellen- 
parameter eines Items bezeichnet: 

m 

a ig = X X ixg/ m • 
x— 1 

Die Profile der Itemparameter des 
Datenbeispiels zeigt Abbildung 110. 




Abbildung 110: Die Profile del- Itemparameter 

Wegen der Summennormierung der 
Schwellenparameter innerhalb jeder Klas- 
se (s.o.) konnen sich die Profile der beiden 
Klassen im Niveau gar nicht voneinander 
unterscheiden: der Mittelwert aller Item- 
Parameter in einer Klasse ist stets gleich 
Null. Die Parameterprofile sagen also 
nichts dariiber aus, welche Klasse extra- 
vertierter ist, sondern stellen nur die rela- 
tiven Itemschwierigkeiten in den Klassen 
dar. 

Ein weiteres Problem bei der Interpre- 
tation der Profile der Itemparameter stellt 
deren Abhangikeit von den Schatzungen 
extremer Schwellenlokationen dar. Aus 
der oben gezeigten Tabelle der Schwel- 
lenparameter geht hervor, dab in der ersten 
Klasse die extremen Schwellen bei +4 
bzw. -4 liegen. Solche extremen Schatz- 
werte sind seln' ungenau, d.h. fehlerbe- 
haftet, so dab auch die Itemschwierigkeit 





240 



3. Testmodelle 



als der Schwellenmittelwert eine geringere 
Schatzgenauigkeit hat. 

Die Profile der klassenspezifischen Erwar- 
tungswerte der Antwortvariablen sind in 
dieser Hinsicht stabiler und geben auch 
Auskunft irber das mittlere Niveau der 
Itemantworten in den Klassen. 



/ , \ ID, Erw(n ix „ 

(7) Erw(x vi |g) = X x— —r — y, 
x=0 Erw(n g j 

wobei Erw(n g )= ^ Erw(nj xg ) = N7tg 

v — n 

die erwartete Personenanzahl in Klasse g 



Die Berechnung der E rwartungswerte 



Der logistische Term in der Modellglei- 
chung (3) definiert die Antwortwahr- 
scheinlichkeiten unter der Bedingung der 
Klassenzugehorigkeit und der Fahigkeit 
der Person in dieser Klasse 




= x g und 




exp(x9 vg Oj X g) 
L exp(s0 vg -a isg ) 

s=0 



Um daraus zu berechnen, wieviele Ant- 
worten bei einem Item in Kategorie x 
erwartet werden, muB eine gewichtete 
Summe uber alle Personen berechnet 
werden: Jede Person ist dabei mit der 
Wahrsehcinlielikeit zu gewichten, mit der 
sie der betreffenden Klasse g angehort: 

(5) Erw(n ixg )=X p(g|*v) ’ p( x vi = x |g und e vg) 

V— 1 



Die Zuordnungswahrsehcinliehkciten wer- 
den wie bei der normalen Klassenanalyse 
berechnet (vgl. Kap. 3. 1.2.2, Gleichung 

(ID): 




S p(x|h) 



h=l 



Mit Hilfe der erwarteten Kategorien- 
haufigkeiten (5) lassen sich die Erwar- 
tungswerte der Antwortvariable wie folgt 
bestimmen: 



Abbildung 111 zeigt die Profile der Er- 
wartungswerte beider Klassen. 




Abbildung 111: Die Profile der Erwartungswerte 

Die Abbildung zeigt, daB die Personen in 
Klasse 2 extravertierter sind, d.h. - mit 
Ausnahme des zweiten Items - die Items 
starker in Richtung ‘Extraversion’ beant- 
worten. 

Diese Profile spiegeln nur das mittlere 
Antwortprofil in beiden Klassen wieder 
und durfen nicht zu der Interpretation ver- 
leiten, daB alle Personen mit einem hohe- 
ren Sunmienscore auch der zweiten Klasse 
angehoren. Zwar werden die meisten Pat- 
tern mit einem Score von 0 bis 6 der 
ersten und mit einem Score von 9 bis 15 
der zweiten Klasse zugeordnet, aber z.B. 
x = (0,1, 1,0,3) mit Score 5 wird Klasse 2 
mit p(2|x) = 0.90 und ~=(1,2,2,1,2) 
mit Score 8 wird Klasse 1 mit 
p(l(x) = 0.96 zugeordnet. 
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Insgesamt liegen die mittleren Zuord- 
nungswahrscheinlichkeiten, die Treffsi- 
cherheiten (s. Kap. 3. 1.2.2), fur Klasse 2 
niedriger als fiir Klasse I : T, = 0.87 und 
T 2 = 0.82. 



schatzenden Modellparametern ist bei 
ordinalen Daten noch wesentlich groBer, 
da die Anzahl unterschiedlicher Scores pro 
Klasse (m - k + 1) groBer ist als bei 
dichotomen Daten. 



Die Modellgleichung (3) enthalt klassen- 
spezifische Personenparameter 8 ,„ die 

bei der Schatzung der Modellparameter 
zunachst ‘herauskonditioniert’ werden (vgl. 
Kap. 3.1.3). Dies geschieht durch eine 
Reparametrisierung, die - wie beim dicho- 
tomen mixed Rasch-Modell - die Wahr- 
scheinlichkeiten der Scores in den latenten 
Klassen 7 t r g als neue Modellparameter 

einfiihrt (vgl. Kap 3.1.3). Man erhalt auf 
diese Weise die folgende Patternwahr- 
scheinlichkeit 



exp 



( 8 ) p(x)= X 

g- 






ixg 

V i=l J 



S 8 rg Yr(ex P (-a)) ’ 



die lediglich eine Funktion der Klassen- 
groBen n und der Scorewahrscheinlich- 

keiten 7 t rg , aber nicht mehr der Personen- 
parameter 0 V g ist. Auch die symmetri- 
schen Grundfunktionen y r (exp(-cr)) sind 
allein von den Schwellenparametern 
abhangig (vgl. Kap. 3.1. 1.2.2 und 3.3.1). 



Die Personenparameter 0 vg werden in 

einem zweiten Schritt anhand der Schat- 
zungen der Itemparameter berechnet. 



Die Parametrisierung ( 8 ) ermoglicht es, 
die Scoreverteilungen innerhalb der Klas- 
sen zu restringieren, um die Anzahl unab- 
hangiger Parameter zu reduzieren. Hierfur 
kann wiederum die in Kapitel 3.1.3 
beschriebene 2 -parametrige logistische 
Funktion (12) (in Kap. 3.1.3) heran- 
gezogen werden. Die Einsparung an zu 



Datenbeispiel: Personenparameter 

Die folgende Tabelle gibt die Score- 
Verteilungen in beiden Klassen 
(n rg = 7t rg ■ Jtg • n) 

sowie die den Scores zugeordneten Per- 
sonenparameterschatzungen wieder. 



r 


n r l 


0 r ] 


"r 2 


0 r 2 


0 


0.91 


- 6.00 


0.1 


-4.55 


1 


0.01 


-4.61 


0.0 


-2.81 


2 


3.0 


-3.76 


0.0 


- 1.88 


3 


4.8 


-3.03 


6.2 


-1.30 


4 


50.0 


-2.29 


0.0 


-0.87 


5 


99.7 


-1.46 


17.3 


-0.53 


6 


140.3 


-0.67 


28.7 


-0.23 


7 


168.5 


-0.03 


37.5 


0.05 


8 


108.5 


0.52 


63.5 


0.31 


9 


74.6 


1.05 


49.4 


0.57 


10 


30.8 


1.57 


35.2 


0.83 


11 


13.2 


2.11 


35.8 


1.11 


12 


9.6 


2.73 


9.4 


1.41 


13 


7.3 


3.48 


2.6 


1.78 


14 


2.0 


4.43 


0.0 


2.28 


15 


0.1 


5.91 


1.9 


3.32 



Die groBen Schwellendistanzen in der 
ersten Klasse schlagen sich in einer selir 
steilen Scoreverteilung nieder, da niedri- 
ge und hohe Summenscores nur selten 
erreicht werden, wenn die extremen Ant- 
wortkategorien gemieden werden. Aus 
demselben Grund erhalten Personen mit 
einem sc hr niedrigen oder selir hohen 
Summenscore in der ersten Klasse selir 
viel extremere Schatzungen ihrer Eigen 
schaftsauspragung als in der zweiten 
Klasse, z.B. ©j 3 j = 3 .48 gegeniiber 
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013 2 = 1-78 bei Score 13: es gehort in 

Klasse 1 sehr viel mehr Extravertiertheit 
dazu, einen hohen Summenscore zu er- 
reichen, als in der zweiten Klasse, in der 
die letzte Schwelle nicht so schwer ist. 



Die Berechnung der Anzahl unabhangiger 
Modellparameter ist ahnlich kompliziert 
wie schon beirn dichotomen mixed Rasch- 
Modell, da wiederum die beiden Extrem- 
scores nicht auf die Klassen aufgeteilt 
werden, selbst aber als Modellparameter 
mitzuzahlen sind. 



Anzahl unabhangiger Modellparame- 
ter: 

Fur jede Klasse gibt es wegen der Sum- 
mennormierung m k- 1 unabhangige Item- 
Kategorienparameter, also 

G(mk-l). 

Ferner gibt es fur jede Klasse m-k-1 Sco- 
reparameter (ohne Extremscores!), von 
denen aber jeweils einer abhangig ist, da 
sich alle Scorewahrschcinlichkeiten zu 1 
erganzen miissen. Hinzu kommen 2 Para- 
meter fur die Extremscores, so daB die Ge- 
samtzahl aller Scoreparameter lautet: 

G(m k-2)+2. 

PaBt man die Scoreverteilungen innerhalb 
der Klassen mit der 2-parametrigen logi- 
stischen Verteilung an (s. (12) in Kap. 
3.1.3), so sind es statt dessen nur 

2 G 

unabhangige Parameter fur die Scores (die 
beiden Extremscores werden mit ange- 
paBt). 

Letztlich sind noch die KlassengroBenpa- 
rameter zu zahlen: 

G-l. 



Ganz analog zu den in Kapitel 3.3.2 und 
3.3.4 dargestellten Modellen fur Rating- 
skalen lassen sich auch drei entsprechende 
Untermodelle fur das ordinale mixed 
Rasch-Modell spezifizieren. 

Es handelt sich wiederum um ein 

- Ratingskalen-Modell mit der Annahme 

gleicher Schwellenabstande fur alle 
Items, ein 

- Aquidistanzmodell mit der Annahme 

konstanter Schwellenabstande inner- 
halb jedes Items und ein 

- Dispersionsmodell mit der Annahme 

des Ratingskalen-Modells und einem 
zusatzlichen Dispersionsparameter pro 
Item. 



Diese Restriktionen werden getrennt fur 
jede Klasse vorgenommen, so daB diese 
mixed Rasch-Modelle den klassenspezi- 
fischen Modellen (6) bis (8) in Kapitel 
3.3.4 analog sind. 



Die folgende Tabelle gibt an, wie die 
Schwellenparameter des ordinalen mixed 
Rasch-Modells 



(3) p(x vi = x)=£ it g 
g=l 



exp x0 vg -X t isg 

v «=! )_ 

m ( s ' 1 

y . ex p s9 vg — ^ Xj[ g 

S=0 V t=l y 



restringiert sind: 



Die letzte Spalte gibt die Anzahl der 
Schwellen- und Itemparameter, also der in 
der ersten Spalte aufgefiihrten Parameter 
an. 
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X ixg 


Normierung 


n P 


(9) mixed 


Ratingskalen-Modell 


c ig + X xg 


m 

X 0g = X X xg =° 

X=1 

I °lg = 0 
i=l 


G(k-l) 
+G(m- 1 ) 


(10) mixed Aquidistanzmodell 




Z a ig = ° 

i=l 


G(k-l) 
+G k 


(11) mixed Dispersionsmodell 


a ig + X xg 


m 

x 0g = Z X xg =° 

X=1 

k k 

I a ig = I S ig =° 

i=l i=l 


G(k-l) 
+G(m- 1 ) 
+G(k-1) 



Datenbeispiel: mixed Dispersions- 

modell 

Wendet man das mixed Dispersions- 
modell auf die 5 Extraversionsitems an, 
so ergeben sich 2 Klassen mit Itempro- 
filen und Schwellenlokationen, die den 
Parametern des unrestringierten Modells 
sehr ahnlich sind. Lediglich die Klassen- 
groBen verandern sich etwas, so daB 
7i| = 0.61 und 7l 2 — 0.39 geschatzt wird. 
Die Schwellen- und Dispersionsparame- 
ter in beiden Klassen lauten: 



X 


i 


2 


3 


X xl 


-3.56 .38 


3.18 


X x2 


-1.49 .31 


1.18 




Sq 


s i2 




1 


-.72 


.26 


i = 


2 


-.31 


.16 




3 


-.31 


-.40 




4 


.94 


-.37 




5 


.40 


.34 



Die Dispersionsparameter zeigen an, daB 
in der ersten Klasse das erste Item, in der 
zweiten Klasse das dritte und vierte Item 
am trennscharfsten sind (vgl. Kap. 
3.3.2). Die Antworten auf diese Items 
streuen in den betreffenden Klassen am 
starksten. 

Bezieht man in die Interpretation mit ein, 
daB das Itemprofil der zweiten Klasse 
mit Ausnahme von Item 2 iiber dem der 
ersten Klasse liegt (s. Abb. Ill) und daB 
die Summenscores hier starker streuen 
als in Klasse 1 , so bedeutet das, daB sich 
die Extravertiertheit der Personen in 
Klasse 2 darin manifestiert, wie sehr sie 
sich fur gut gelaunte Optimisten halten 
(i=3), die ein hektisches Leben full re n 
(i=4). 



Bei den hier dargestellten Modellen wurde 
- wie auch in Kapitel 3.3.4 - davon ausge- 
gangen, daB in jeder Klasse dieselbe An- 
nahme iiber die Schwellendistanzen gilt. 
Zwar unterscheiden sich die geschatzten 
Parameter zwischen den Klassen, aber es 
wird z.B. beim Aquidistanzmodell ange- 
nommen, daB die Schwellen in jeder Klas- 
se aquidistant sind. 

Man erhalt sehr viel flexiblere Klassenmo- 
delle, wenn man zulaBt, daB in jeder Klas- 
se andere Annahmen iiber die Schwel- 
lendistanzen getroffen werden, also z.B. in 
einer Klasse das Ratingskalen-Modell gilt, 
in einer anderen das Dispersionsmodell. 
Diese Idee laBt sich fortsetzen: man kann 
Modelle formulieren, in denen in einigen 
Klassen Modelle der ‘normalen’ Klassen- 
analyse, in anderen Klassen Rasch-Model- 
le gelten. Man nennt solche Modelle 
Hybrid-Modelle, da sie Mischungen 
verschiedener Modellarten darstellen. 

Die Vielfalt von Modellen, die durch eine 
solche Kombinierbarkeit entsteht, kann 
man sich leicht ausmalen, entzieht sich 
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aber einer systematischen Darstellung. Ein 
naheliegendes Beispiel eines Hybrid-Mo- 
dells ist ein 2-Klassen Modell, bei deni in 
einer Klasse das Rasch-Modell gilt und in 
der anderen Klasse ein Modell mit kon- 
stanten Antwortwahrscheinlichkeiten. Die- 
ses Modell kann zur Identifiziemng unska- 
lierbarer Personengruppen eingesetzt wer- 
den (vgl. 6.3.2). 



L iteratur 

Das ordinale mixed Rasch-Modell wurde 
von Rost (1991) beschrieben, seine re- 
stringierten Varianten von v. Davier und 
Rost (1995). Hybrid-Modelle behandeln 
Gitomer & Yamamoto (1991) und 
v. Davier & Rost (1996). Anwen- 
dungsbeispiele finden sich in Rost & 
Georg (1991), Roller & Straub (1994), 
Straub (1994), Straub et al. (1995), Rost 
(1996) und Rost et al. (1996). 



U bungsaufgaben: 

1. Sie haben einen Fragebogen mit dem 
ordinalen mixed Rasch-Modell ausge- 
wertet. Wieviele Mebwerte stehen 
Ihnen zur Besclircibu ng jeder einzelnen 
Person zur Verfiigung? 

2. Berechnen Sie, wieviele unabhangige 
Modellparameter fur das Datenbeispiel 
in den 2-Klassenlosungen aller hier 
dargestcllten Modelle geschatzt werden 
(ordinales mixed Rasch-Modell und die 
3 restringierten Modelle jeweils mit 
und ohne Restriktion der Scorevertei- 
lung) 

3. Berechnen Sie mit WINMIRA die er- 
warteten Kategorienhaufigkeiten n ixg 

in den Klassen und erlautem Sie, wie 
sich darin die unterschiedlichen 
Schwellendistanzen der beiden Klassen 
ausdrucken. 
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3.4 Itemkomponenten-Mo- 
delle: Modelle fiir systema- 
tisch konstruierte Items 

Bei den bisher behandelten Testmodellen 
wurde zumeist davon ausgegangen, dab 
die Items die kleinsten Bestandteile eines 
Tests, die ‘Atome' eines Tests darstellen. 
Lediglich bei den in Kapitel 3.3 behan- 
delten ordinalen Modellen gab es noch 
kleinere Bestandteile von Items, namlich 
die Schwellen, deren Schwierigkeiten als 
Modcllparameter geschatzt werden. 

Auch zueinander wiesen die Items keiner- 
lei Beziehungen auf, auber der bei jedem 
Testmodell getroffenen Annahme der 
Itemhomogenitat oder einer Annahme 
iiber die Konstanz von Schwellenabstan- 
den iiber die Items hinweg. Die Items 
stellten die 'Bausteine' dar, aus denen der 
Test aufgebaut ist. 

Demgegeniiber werden in dieseni Kapitel 
Testmodelle behandelt, bei denen die 
Items bzw. deren Schwierigkeiten auf 
weitere Bestandteile zuriickgefiihrt wer- 
den, auf sogenannte Itemkomponenten. 
Solche Itemkomponenten konnen etwa 
verschiedene Elemente irn Prozeb der 
Aufgabenbearbeitung sein, die gemeinsam 
die Schwierigkeit eines Items ausmachen. 
Von der Itemkonstruktion her betrachtet, 
konnen solche Itemkomponenten auch 
Elemente sein, aus denen man die Items 
‘zusammensetzt’ und somit systematisch 
konstruiert. Zwei Beispiele sollen das ver- 
deutlichen. 



Beispiel 1: Schwierigkeiten der Grund- 

rechenarten 

Die Aufgaben eines Mathematiktests 
werden so konstruiert, dab in den Aufga- 



ben Additionen, Subtraktionen, Multipli- 
kationen und Divisionen in unterschiedli- 
chen Kombinationen vorkonmien. Es wird 
angenommen, dab sich die Aufgaben- 
schwierigkeit allein daraus bestimmt, 
welche dieser Grundrcelicnarten wie hiiu- 
fig in einem Item vorkommt, d.h. zu des- 
sen Losung durchgefiihrt werden mub. 

Die Aufgabe eines Testmodells besteht 
dann nicht mein - darin, fiir jedes Item eine 
unbekannte Itemschwierigkeit zu schatzen, 
sondern nur die Schwierigkeiten der 
Durchfiihrung jecler Grundrechenart. Die 
Itemschwierigkeit ergibt sich aus der 
Surnnie der Schwierigkeiten aller zu seiner 
Losung erforderlichen Grundrcelienarten. 
Die jeweiligen Grundrechenarten sind die 
Komponenten der Items. 



Die R Lick full rung der Itemschwierigkeit 
auf verschiedene, am Losungsweg betei- 
ligte Denkoperationen setzt voraus, dab 
man prdexperimentelle Hypothesen iiber 
die am Losungsprozeb beteiligten kogni- 
tiven Schritte hat (im Beispiel entspricht 
jedem Rechenschritt eine Denkoperation). 
In einem entsprechenden Testmodell sind 
dann statt der Itemparameter Schwierig- 
keitsparameter der einzelnen kognitiven 
Schritte enthalten. 

Auf diese Weise kann die Validitdt eines 
Tests bereits bei der Testauswertung mit 
untersucht werden: Lassen sich die praex- 
perimentellen Hypothesen iiber die am 
Losungsweg beteiligten Denkprozesse an- 
hand der Daten bestatigen (d.h. pabt das 
Modell auf die Daten), so hat man damit 
nachgewiesen, wie der Losungsweg bei 
der Aufgabenbearbeitung aussieht, und 
somit, ‘was der Test mifit Es handelt sich 
um einen Nachweis der internen Validitat 
oder Konstrukt\’aliditdt des Tests. 
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Beispiel 2: Ein Attributionsfragebogen 

Ein zweites Beispiel ist die Konstruktion 
eines Fragebogens zur Erfassung des in- 
dividuellen Attributionsstils. In der Attri- 
butionsforschung wird untersucht, welche 
Ursachenzuschreibungen Menschen fur 
bestimmte Ereignisse vornehmen: so etwa, 
ob ein Fehlschlag im beruflichen Leben 
auf interne Faktoren (‘ich bin daran 
Schuld’) oder auf externe Faktoren (‘es war 
ein Zusammentreffen ungliicklicher Um- 
stande’) zuriickgefiihrt werden, oder ob die 
zugesehriebene Ursache eine stabile Ge- 
gebenheit (‘ich bin hierfiir nicht begabt’) 
oder eine labile Gegebenheit (‘ich habe 
niich nicht angestrengt’) beschreibt. Per- 
sonen unterscheiden sich hinsichtlich ill res 
Attributionsstils, d.h. hinsichtlich ihrer 
Tendenz, bestimmte Attributionen, z.B. 
intem-stabile, vorzunehmen. 

Ein Fragebogen wird nun derart konstru- 
iert, dab jedes Item ein Ereignis beschreibt 
und eine mogliche Ursachenzuschreibung 
anbietet. Die befragte Person hat zu beur- 
teilen, inwieweit sie diese Attribution vor- 
nehmen wiirde. Die Items werden insofern 
systematisch konstruiert, als jedes Item 
genau eine Kombination der Merkmale 
von Attributionen realisiert, wie externe - 
interne, stabile - labile Attribution, 
positives - negatives Ereignis u.s.w. 

Das Ziel der Testanalyse besteht darin, 
den individuellen Attributions stil zu mes- 
sen, d.h. die Tendenz der Person, Attri- 
butionen eines bestimmten Typs vorzu- 
nehmen (z.B. intern-stabil bei negativem 
Ereignis). 



Beide Beispiele haben gemeinsam, dab es 
‘hinter’ den Items bestimmte Grundele- 
mente gibt, die in den einzelnen Items in 
unterschiedlicher Kombination oder Hau- 



figkeit auftauchen. Die beiden Beispiele 
unterscheiden sich darin, dab im ersten 
Fall eine allgemeinpsychologische An- 
nahme iiber den Losungsweg getroffen 
wird, welche auf alle Personen zutreffen 
soil. Im zweiten Beispiel wird demgegen- 
iiber eine differentialpsychologische An- 
nalime getroffen, d.h. es wird angenom- 
men, dab die Personen hinsichtlich der 
einzelnen Komponenten oder Elemente 
der Items unterschiedliche Eigenschafts- 
auspragungen haben. 

In den beiden folgenden Unterkapiteln 
wird auf Modelle eingegangen, die diese 
beiden Annahmen iiber Itemkomponenten 
fur quantitative Personenvariablen uni- 
setzen. Kapitel 3.4.3 geht auf entsprechen- 
de Modelle fur kategoriale Personen- 
variablen ein. 

3.4.1 Linear-logistische Test- 
modelle: Komponenten der 
Aufgabenschwierigkeit 

Im linear-logistischen Testmodell fur di- 
chotome Daten wird die Aufgaben- 
schwierigkeit des Rasch-Modells additiv 
zerlegt, d.h. in eine gewichtete Summe 
von sogenannten Basisparametern r|j zer- 
legt, 

(!) a i -bil r ll +c li2 ^2 +c li3 r b--- +c lih "Hh • 

Die Gewichte q n bis q ih stellen keine 
Modellparameter dar, d.h. sie miissen vor 
der Parameterschatzung festgelegt werden. 
Sie reprasentieren die praexperimentellen 
Hypothesen iiber die Aufgabenstruktur. 

Im einfachsten Fall haben diese q-Gewich- 
te nur die Werte 0 oder 1, d.h. sie geben 
an, ob eine bestimmte Denkoperation oder 
Losungskomponente am Prozeb der Auf- 
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gabenbearbeitung des i-ten Items beteiligt 
ist oder nicht. Die Aufgabenschwierigkeit 
Gj ist in diesem Fall die ungewichtete 
Summe der beteiligten Losungskomponen- 
ten. 



Die Gewichte q :j miissen jedoch keines- 
wegs auf die Zahlen 0 und 1 beschrankt 
sein, d.h. lediglich Auftreten oder Nicht- 
auftreten eines Elements unterscheiden. 
Sie konnen vielmehr jeden beliebigen 
ganzzahligen Wert annehmen, wenn etwa 
derselbe Losungsschritt irn LosungsprozeB 
einer Aufgabe mehrfach auftaucht. Dann 
entsprechen die q-Gewichte der Haufigkeit 
des Auftretens einer Itemkomponente im 
vermuteten Losungsweg. 

Die q-Gewichte konnen jedoch auch nicht- 
ganzzahlige, also gebrochene Werte an- 
nehmen. Dies spielt bei der Formalisie- 
rung von Losungswegen mittels Denkope- 
rationen im allgemeinen keine Rolle, kann 
aber zur Abbildung von Lernprozessen 
hilfreich sein (s.U. Kap. 3.5.3). 



Die Parameter r|j werden wie nomiale Mo- 
dcl [parameter anstelle der Schwierigkeits- 
parameter G; geschatzt. In der Modell- 
gleichung werden letztere durch die Sum- 
me (1) ersetzt, so daB die Modellgleichung 
des linear-logistischen Testmodells 
(LLTM) lautet: 



exp 



(2) p(x vi = l) =- 



6v - Z 4i j - 1 
j=l 



1 + exp 



e v-Z 4ij4j-< 
J=l 



Dieses Modell stellt ein spezielles, d.h. 
restriktiveres Modell gegeniiber dem nor- 
malen Rasch-Modell dar. Es kann nur auf 
einen Datensatz passen, wenn das unre- 
stringierte Rasch-Modell, in dem die Item- 



Schwierigkeitsparameter nicht auf eine 
Summe von Elementarparametem zuriick- 
ge frill rt werden, auch auf die Daten paBt. 
Die Geltung des Rasch-Modells stellt also 
eine notwendige Voraussetzung fiir die 
Anwendung dieses Modells dar. 

Die k Itemparameter eines Tests konnen 
stets nur auf eine Anzahl von Elementar- 
parametern zuriickgefiihrt werden, die 
kleiner ist als k. Es macht keinen Sinn 
(und ist mathematisch unmoglich) eine 
Anzahl von Parametern auf die Summe 
einer groBeren Anzahl von Parametern 
zuriickzufiihren. Eine solche Reparametri- 
sierung hatte keinen Erklamngswert, denn 
es gibt selir viele (sogar unendlich viele) 
additive Zerlegungen von k Parametern in 
eine groBere Anzahl von Elementarpara- 
metem. Die Anzahl der Items muB also 
immer grofier sein als die Anzahl der Ele- 
mentarparameter. 

Die praexperimentellen Gewichte qy wer- 
den in einer Rechteckmatrix, der soge- 
nannten Q-Matrix zusammengefaBt. 





Komponenten 
1 2 3 ,.h 


1 


0 1 0 ... 


2 


1 1 0 ... 


Items 3 


1 0 1 ... 


4 


0 0 1 ... 


...k 





Abbildung 112: Beispiel einer Q-Matrix 

In jeder Zeile dieser Matrix stehen die q- 
Gewichte fiir ein bestimmtes Item. In 
Abbildung 112 umfaBt z.B. das zweite 
Item die Komponenten 1 und 2. Nach dem 
zuvor Gesagten hat diese Q-Matrix stets 
mehr Zeilen als Spalten. 
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Uberdies darf die Matrix keine abhdngi- 
gen Spaltenvektoren enthalten, was bedeu- 
tet, dab sich keine Spalte dieser Matrix 
durch eine gewichtete Summe beliebiger 
anderer Spalten dieser Matrix darstellen 
labt. Abbildung 113 gibt zur Veranschau- 
lichung verschiedene Falle linearer Ab- 
hangigkeit wieder. 



Komponenten 





1 


2 


3 


4 


5 


c 


1 


t 


0 


1 


1 


0 


1 


2 


0 


1 


1 


0 


2 


1 


Items 3 


0 


1 


1 


0 


2 


1 


4 


1 


0 


0 


0 


0 


1 


5 


0 


1 


1 


0 


2 


1 


6 


0 


1 


1 


0 


2 


1 



Abbildung 113: Beispiele filr lineare Abhangig- 
keiten in der Q-Matrix 

In diesem Beispiel ist der dritte Spalten- 
vektor als Summe des zweiten und vierten 
Vektors darstellbar und der fiinfte Spal- 
tenvektor entspricht dem zweiten Spalten- 
vektor multipliziert mit 2. Jedoch sind 
bereits auch die beiden ersten Spal- 
tenvektoren linear abhangig, da sie sich zu 
einem Vektor, der nur Einsen enthalt, 
addieren. Dies allein ware noch kein Fall 
linearer Abhangigkeit, wenn es nicht die 
Konstante c in der Modellgleichung gabe. 
Diese Konstante muB bei alien Items zu 
der Summe der Elementarparameter hin- 
zuaddiert werden und stellt somit eine 
weitere Spalte in der Q-Matrix dar, die 
lediglich Einsen enthalt (sog. Einheits- 
vektor). Diesen Vektor gilt es mit zu 
beriicksichtigen, wenn man die I i nearer! 
Abhangigkeiten in der Q-Matrix unter- 
sucht. 



Datenbeispiel: 

Als Datenbeispiel werden die 5 Items 
des KFT aus Kapitel 3.1 herangezogen, 
Aufgrund einer relativ einfachen Theorie 
iiber die Komponenten der Schwierigkeit 
geometrischer Analogieaufgaben (s. 
Homke & Rettig, 1992, Whitely & 
Schneider, 1981) laBt sich die folgende 
Q-Matrix aufstellen: 

j= 





1 


2 


1 


1 


0 


2 


2 


0 


3 


1 


1 


4 


2 


1 


5 


2 


2 



Komponente 1 beschreibt die Anzahl un- 
terschiedlicher Elemente in den geome- 
trischen Figuren der Analogie, Kompo- 
nente 2 die Anzahl raumlicher Transfor- 
mationen wie Rotation oder Spiegelung, 
die fur die Losung der Analogieaufgabe 
eine Rolle spielen (vgl. Abb. 18 in Kap. 
3.1). 

Als Schatzwerte fur die Basisparameter 
ergeben sich 

r)[ = 0.46 
Ti 2 = 0-96 

und die Konstante c betragt c = -1.50. 
Die Basisparameter besagen, daB die 
Durchfiihrung einer Rotation oder Spie- 
gelung bei der Losung einer Analogie 
sehr viel schwieriger ist als das Be- 
riicksichtigen eines weiteren geometri- 
schen Elementes in den Figuren. 

Wie gut die Theorie iiber die Aufgaben- 
schwierigkeiten auf die Daten paBt, laBt 
sich durch einen Vergleich der unrestrin- 
gierten Itemparameter des Rasch-Mo- 
dells a, und der iiber die Basisparameter 
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zumckgerechneten Itemschwierigkeiten 
feststellen: 





h 

X 9ij hj + c 
1=1 


-1.17 


-1.04 


-0.69 


-0.58 


0.04 


-0.08 


0.70 


0.38 


1.12 


1.34 



Danach ist die Ubereinstimmung recht 
gut. Eine genauere Aussage iiber die 
Gultigkeit der in der Q-Matrix ausge- 
druckten Annahmen laBt sich mit Hilfe 
von Modellgeltungstests treffen (s. Kap. 
5-). 

In deni Datenbeispiel wurden 2 Parameter 
eingespart, da statt der 4 unabhangigen 
Itemparameter des Rasch-Modells nur 2 
Basisparameter des LLTM zu schatzen 
sind. Die Kostante c hat die Funktion 
einer Noimierungskonstanten, d.h. sie be- 
wirkt, daB die Summe der aus den 
Basisparametern T|j riickgerechneten Item- 

Parameter Null ist, die Itemparameter also 
summennomiiert sind: 
k h 

( 3 ) X S % Tlj + c = 0 • 
i=l J=1 

Da die notwendige Noimierung der Item- 
Schwierigkeiten allein von der Konstanten 
c bewirkt wird und jede andere Ail der 
Normierung die Basisparameter unver- 
andert laBt, liegen die Basisparameter auf 
einer Absolutskala. Die Absolutskala stellt 
das hochste Skalenniveau dar, bei dem 
keinerlei Transformationen der MeBwerte 
moglich sind. Man kann sich das Zustan- 
dekommen dieses hohen Skalenniveaus 
beim LLTM damit erklaren, daB die 
Basisparameter die Abstande zwischen 
den Itemparametem des Rasch-Modells 



aufschlusseln und diese sind auch beim 
Rasch-Modell normierungsunabhdngig. 

Der Ansatz, die Itemparameter des Rasch- 
Modells additiv zu zerlegen, ist nicht nur 
auf das dichotome Rasch-Modell anwend- 
bar, sondem auch auf ordinale Rasch- 
Modelle. Im allgemeinen ordinalen Rasch- 
Modell (dem sogenannten partial-credit 
Modell, s. Kap. 3.3) lassen sich die Item- 
kategorienparameter G 1X mit Hilfe einer 

dreidimensionalen Q-Matrix zerlegen. 

Die Modellgleichung dieses lineciren 
partial-credit Modells (LPCM) lautet: 




S 



h 

mita ix = X TixjBj +xc. 

j=l 

Jedes Element der Q-Matrix driickt aus, 
wie oft oder mit welchem Anteil Kompo- 
nente j bei Item i vorkommt, wenn man in 
Kategorie x antwortet. Beispiele fur der- 
artige Item- und kategorienspezifische 
Komponenten sind jedoch schwer zu 
finden. Hinzu kommt die Schwierigkeit, 
daB die additive Zerlegung auf die 
kumulierten Schwellenparameter ange- 
wendet wird (s.o. Kap. 3.3.1) und nicht 
auf die Schwellenlokationen, also die 
dekumulierten Parameter. Die Interpreta- 
tion derartiger kategorienspezifischer 
Itemkomponenten ist daher etwas schwie- 
rig. Das Modell laBt sich jedoch gut im 
Rahmen der Veranderungsmessung an- 
wenden (s. Kap. 3.5.4). 

Die Modellstruktur des LPCM stellt eine 
sehr allgemeine algebraische Struktur dar, 
die das Obermodell von vielen anderen 
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Modellen fiir Ratingdaten bildet (S.o. Kap. 
3.3.2). Mit Hilfe der in Abbildung 114 
dargestellten Q-Matrix laBt sich z.B. das 
Ratingskalen-M odell im Rahmen des 
linearen partial-credit Modells darstellen. 





J = 

1 2 3 4 5 6 7 


1 

2 

x=l i= 3 

4 

5 


1 1 
1 1 
1 1 
1 1 
1 1 


1 


2 1 


2 


2 1 


x=2 i= 3 


2 1 


4 


2 1 


5 


2 1 


1 


3 


2 


3 


x=3 i= 3 


3 


4 


3 


5 


3 



Abbildung 114: Die Q-Matrix zur Darstellung des 
Ratingskalen-Modells als Spezialfall des LPCM 
am Beispiel von 5 Items mit 4 Antwortkategorien 

Diese Q-Matrix bewirkt, daB anstelle der 
o jx Parameter die Sumnie x a, + \(/ x ge- 
schatzt wird. Es ergibt sich das in Kapitel 
3.3.2 beschriebene Ratingskalen-Modell 

( v \ exp(x0 v -xa i -\|/ x ) 
(5) P (,X v j =xj = — . 

£ exp(s0 v - SO; - \|/ s ) 

s=0 

In der in Abbildung 114 spezifizierten Q- 
Matrix stellen die ersten fiinf Basispa- 
rameter die Itemschwierigkeiten a, des 
Ratingskalen-Modells dar, deren Koeffi- 
zienten x (s. Gleichung (5)) durch die q- 
Gewichte erzeugt werden. Zu beachten ist 
hier, daB fiir die 0-te Kategorie keine 
Itemparameter zu schatzen sind, da diese 



sowohl im partial-credit wie im Rating- 
Skalen-Modell gleich Null sind. 

Der sechste und siebte Basisparameter 
entspricht den beiden kumulierten Schwel- 
lenpai'ametern i|/] und \|/ 2 des Rating- 
Skalen-Modells. Da aufgmnd der Normie- 
rungsbedingungen dieses Modells (s. Kap. 
3.3.2) 1 |/q = \j/ m = 0 ist, bedai'f es fiir die 
0-te und m-te Kategorie keiner eigenen 
Spalten in der Q-Matrix. 

Abbildung 114 zeigt der Vollstandigkeit 
halber je eine Spalte fiir die 5 Items (j = 1 
bis j = 5). Diese 5 Spalten sind jedoch von 
der Normierungskonstanten dieses Mo- 
dells, die den Koeffizienten x hat (s. Glei- 
chung (4)), linear abhiingig, da die Summe 
dieser 5 Spaltenvektoren genau den Spal- 
tenvektor der Normierungskonstanten er- 
gibt. Bei der Schatzung der Modellpara- 
meter muB daher eine dieser Spalten aus- 
gelassen werden. 



Datenbeispiel: 

Die 5 Items des NEOFFI-Fragebogens, 
die in Kapitel 3.3 als Datenbeispiel die- 
nen, sind mit der in Abbildung 1 14 dar- 
gestellten Q-Matrix analysiert worden. 
Es ergeben sich folgende Schatzwerte fiir 
die Basisparameter des linearen partial- 
credit Modells: 

t| 2 = 067 
r| 3 = 0.98 
r(4 — 0.02 

t! 5 = 1.12 

% ~ -2.74 
n 7 = -2.19 

Mit Hilfe der Normierungskonstanten 
c = -0.56 ergeben sich die folgenden 
Itemparameter des Ratingskalen-Modells 



i 


1 


2 3 


4 


5 




-.56 


.11 .42 


-.54 


.56 





3.4 Itemkomponenten-Modelle: Modelle fur systematise!! konstruierte Items 



251 



die den in Kapitel 3.3.2 angegebenen 
Schatzwerten entsprechen. Auch die 
Schwellenlokationen entsprechen einan- 
der, wenn man die Basisparameter deku- 
muliert: 

h = r \6 = ~ 2 - 14 

=r| 7 -r| 6 = 0.55. 



Als eine weitere Mogliclikeit fur ein line- 
ar-logistisches Modell fiir ordinale Item- 
antworten laBt sich die additive Zerlegung 
auch auf die Itemparameter dieses 
Ratingskalen-Modells anwenden. Es gilt 
dann fiir die a, -Parameter in Gleichung (5) 
die folgende Restriktion: 
h 

(6) <Ti = X qjjBj+c- 

j=1 

Hier handelt es sich wieder (wie im 
dichotomen Fall, S.O.) um eine zweidimen- 
sionale Q-Matrix, in der fiir jedes Item die 
beteiligten Komponenten spezifiziert sind. 
Es lassen sich fiir dieses Modell An- 
wendungen in der Einstellungsmessung 
denken, z.B. wenn sich die Items aus ver- 
schiedenen Aspekten einer komplexeren 
Einstellungsstruktur zusammensetzen. 
Dann ist die Schwierigkeit eines Ein- 
stellungsitems eine additive Funktion der 
im jeweiligen Iteminhalt vertretenen 
Aspekte. 

Diese linear-logistischen Testmodelle stel- 
len einen sehr allgemeinen Ansatz dar. 
Tests und Fragebogen auszuwerten, deren 
Items in irgendeinem Sinne systematisch 
konstruiert worden sind. Hire Anwendung 
erfordert jedoch sehr prdzise prdexperi- 
mentelle Hypothesen, da man die Struktur 
der Items in Form der Q-Matrix vorher 
festlegen mill.). Ob das Modell dann auf 
die Daten paBt, hangt davon ab, ob es 



gelungen ist, in der Q-Matrix die fiir die 
Schwierigkeit ausschlaggebenden Kompo- 
nenten zu spezifizieren. Diese Modelle bil- 
den auch die Grundlage fiir die Messung 
von Veranderungen, wenn unvollstandige 
Datenerhebungsdesigns vorliegen (s. Kap. 
3.5.4). 
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Ubungsaufgaben: 

1. In der Einleitung von Kapitel 3.4 
wurde als ‘Beispiel 1’ die Annahme 
besclnieben, dab sich die Schwie- 
rigkeit von Rechenaufgaben daraus 
ergibt, wie haufig jede der Grund- 
rechenarten im Losungsweg auftritt. 
Stellen Sie aufgrund dieser Annahme 
die Q-Matrix fur die folgenden Auf- 
gaben auf: 

5+3-2 = ? 

(6:2) + 7 = ? 

(3-5) + (7-2) = ? 

(6-4) - (9-8) = ? 

(14:2) • (2-3) = ? 

2. Die vier Items eines Tests haben 
im dichotomen Rasch-Modell die 
folgenden Schwierigkeitsparameter: 

= -2, a 2 = - 1 , a 3 = + 1 , a 4 = +2. 
Berechnen Sie die Basisparameter des 
LLTM fur die folgende Q-Matrix: 



j = 


1 


2 


1 


0 


0 


i= 2 


1 


0 


3 


0 


1 


4 


1 


1 



Wie grol:> ist die Nomiierungskon- 
stante? 

3. Denken Sie sich ein Beispiel fur 
einen Einstellungsfragebogen aus, auf 
den das lineare Ratingskalen-Modell 
(5) und (6) passen konnte. Was sind 
die Komponenten der Itemschwierig- 
keit in diesem Beispiel? 



3.4.2 Mehrdimensionale Kom- 
ponentenmodelle 



Die zuvor behandelten linear-logistischen 
Testmodelle haben gemeinsam, dab die 
Bemcksichtigung von Komponenten le- 
diglich auf die Items bezogen ist. An den 
Personenfahigkeiten oder Personeneigen- 
schaften andert sich durch die Zerlegung 
der Items in Komponenten nichts. Insbe- 
sondere bleiben sie eindimensional, d.h. es 
gibt keine komponentenspezifischen Per- 
soneneigenschaften. 



Fur viele Hypothesen, die sich auf Item- 
komponenten beziehen, ist es jedoch sinn- 
voll anzunehmen, dab die Ldsungswalir- 
scheinlichkeiten auch davon abhangen, 
wie ausgepragt die Personeneigenschaft 
hinsichtlich jeder Komponente ist. Das 
erfordert Modelle, die nicht nur einen 
Personenparameter enthalten, sondem fiir 
jede Komponente einen. 



Die allgemeinste linear-logistische Struk- 
tur, in der es komponentenspezifische Per- 
sonen- und Itemparameter gibt, lautet: 



(1) P (x vi = l) = - 



ex pf S 9ij( 0 vj-Tlij) 

j=l 



1+exp X Qi j( 0 vj ~ ntj) 

U=1 



Hier spezifiziert die Q-Matrix (s. Kap. 
3.4.1) wiederum, welche Komponenten j 
mit welchem Gewicht an jedem Item i 
beteiligt sind. Diese Werte stellen die 
Gewichtung fiir einen komponentenspezi- 
fischen Personenparameter 0 VJ und einen 
komponentenspezifischen Itemparameter 
Pjj dar. Die Lbsungswahrscheinlichkeit 
eines Items i hangt in diesem Modell von 
der so gewichteten Differenz der jeweils 
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beteiligten Personen- und Itemparameter 
ab. 

Diese generelle Modellstruktur ist in die- 
ser Form sicherlich nicht anwendbar, weil 
sie viel zu viele Parameter enthalt. Sie 
macht aber deutlich, durch welche 
Restriktionen das linear-logistisehe Test- 
modell (s. Kap. 3.4.1) zustandekommt und 
auch wie man zu einem Modell mit 
komponentenspezifischen Personenpara- 
metern gelangen kann. 

Das linear-logistisehe Testmodell (LLTM) 
geht durch zwei Restriktionen aus dieser 
Modellstruktur hervor. Erstens sind die 
Basisparameter nicht itemspezifisch, d.h. 



^j = 1 V 

Zweitens sind alle komponentenspezifi- 
schen Personeneigenschaften gleich, d.h. 



0 VJ = 0 V . 

In diesem Fall kann 0 V vor das Sum- 
menzeichen gezogen werden, und es ergibt 
sich das Modell der Gleichung (2) in 
Kapitel 3.4.1 (Die Noimierungskonstante 
wird hier und im folgenden aus Griinden 
der Ubersichtlichkeit weggelassen). 



Die erste dieser beiden Restriktionen ist 
durchaus sinnvoll. denn die Idee von Item- 
komponenten besteht darin, anstelle der 
Itemparameter nur die Komponentenpa- 
rameter beriicksichtigen zu miissen. Behalt 
man nur die Restriktion py = pj bei, so 
ergibt sich das folgende Modell: 



exp 



( 2 ) p(x vi =l) = - 



X qij(© V j - dj) 



VJ= 



1 + exp 



f h 

l 

VI=1 



X qijKj-bj) 



A ' 



In diesem Modell, in deni die zweite oben- 
genannte Restriktion nicht gilt, erweisen 



sich die Komponentenparameter pj jedoch 
als iiberflUssig: In Gleichung (2) kann die 
Schwierigkeit der Komponente j dadurch 
eliminiert werden, daB man alle Eigen- 
schaftsauspragungen beziiglich Kompo- 
nente j uni diesen Betrag vemiindert: 

0 Vj = e vj _T lj. 

Die so berechneten Personenparameter 
* 

0 v j ergeben dieselben Losungswahr- 
scheinlichkeiten 



Praktisch bedeutet dies, daB man die 
Komponentenschwierigkeiten pj nicht 
schatzen kann, weil die komponentenspe- 
zifischen Personeneigenschaften 0 v j nicht 
von den globalen Komponentenschwierig- 
keiten zu trennen sind. Damit reduziert 
sich Modell (2) zu folgender Modell- 
struktur 



exp 



(3) p(x vi = l) = - 



X 4i j ®vj 

y=i 



1 + exp 



A ' 



X qi.j °v.j 

U=1 



Das iiberraschende Resultat dieser Uberle- 
gungen besteht darin, daB es sich bei 
Modell (3) nicht mehr um ein Modell 
handelt, in dem der PersoneneinfluB und 
der ItemeinfluB auf das Antwortverhalten 
getrennt werden. In diesem Sinne handelt 
es sich also gar nicht um ein Rasch- 
Modell. 



Andererseits stellt Modell (3) ein interes- 
santes und auch anwendbares Komponen- 
tenmodell dai', in dem die Losungswahr- 
scheinlichkeit von mehreren komponen- 
tenspezifischen Personenfahigkeiten ab- 
liiingt. Es ist also ein mehrdimensionales 
Modell. 
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Welche Fahigkeiten zur Losung welchen 
Items mit welcher Gewichtung benotigt 
werden, ist praexperimentell in Fomi der 
Q-Matrix festgelegt. Wie gut das Modell 
auf die Daten paBt, hangt somit wiederum 
davon ab, wie giiltig die Q-Matrix ist. 



quasi unbekannt ist, miissen auf der 
rechten Seite der Modellgleichung be- 
stimmte Dinge als bekannt vorausgesetzt 
werden. Das sind in diesem Fall die Q- 
Gewichte, die den Beitrag jeder Perso- 
nenfahigkeit zur Itemlosung ausdrucken. 



Sehrcibt man das Modell in der folgenden 
Art und Weise um (vgl. Kap. 3.1. 1.2.2): 

Pvi 

< 4 ) ln l-p vj 0 vl + 4 i 2 e v 2 + -- +c lih 0 vh’ 

wobei p vi =p(x vi = l), so zeigt sich die 

Parallelitat dieses Modells zum Modell 
der Faktorenanalyse, das auf metrische 
Variablen anwendbar ist. 



Parallelen zur Faktorenanalyse 

Das Modell der Faktorenanalyse nimmt 
an, daB sich der MeBwert X vi der Person v 
auf Variable i additiv zusammensetzt aus 
einer gewichteten Summe von Faktorwer- 
ten F vi , die diese Person auf einer be- 
grenzten Anzahl von Faktoren hat. Diese 
sind jeweils mit Koeffizienten ay gewich- 
tet, die angeben, wie stark der betreffende 
Faktor zur Auspragung der Variable i bei- 
tragt: 

(5) X v j -a;i F v i +aj2 F v2 h ^ a ih^vh- 

Im Modell der Faktorenanalyse stellen die 
Variablenauspragungen Xvi die beobach- 
teten Daten dar, und es werden sowohl die 
Gewichte ay (sog. Ladungen) wie auch die 
Faktorwerte F VJ geschatzt. 

Im Testmodell (4) ist das, was links vom 
Gleichheitszeichen steht, nicht beobacht- 
bar, denn es handelt sich um die Logits 
der Losungswahrscheinlichkeiten. Beob- 
achtbar ist hier lediglich, ob ein Item 
gelost wurde oder nicht, was keineswegs 
identisch zum Logit einer unbekannten 
Losungswahrscheinlichkeit ist. Da das, 
was links vom Gleichheitszeichen steht, 



Die strukturelle Ahnlichkeit dieses Mo- 
dells mit dem Modell der Faktorenanalyse 
ist frappierend, wenn auch aufgrund der 
gegebenen In formationsarm ut von Test- 
daten die Faktorladungen praexperimentell 
festgelegt sein miissen. 

Das allgemeine linear-logistische Modell 
(1) laBt sich jedoch auf eine andere Weise 
restringieren, so daB man neben den kom- 
ponentenspezifischen Personenparametem 
auch Itemparameter schatzen kann. Diese 
Restriktion besteht darin, die Itemparame- 
ter nicht komponentenspezifisch zu kon- 
zipieren, d.h. 

Z Gij Mij = 
j 



zu setzen. Das damit definierte Testmodell 



(6) p(x vi = l) = - 



f 


r h > 






exp 


£ Bij e vj 


-Oi 




V 


U=> J 








(( A 







1 + exp 



Z q.j e vj 






AJ : 



i=i 



ist ein mehrdimensionales Rasch-Modell, 
da es die Losungswahrscheinlichkeiten auf 
komponentenspezifische Personenvaria- 
blen und globale Itemschwierigkeiten zu- 
mckfiihrt. Die oben dargestellte Ahnlich- 
keit zur Faktorenanalyse gilt auch fur die- 
ses mehrdimensionale Modell, es werden 
lediglich noch Itemschwierigkeiten als 
weitere ‘Faktoren’ der Losungswahrschein- 
lichkeit beriicksichtigt. 

Die in diesem Kapitel dargestellten Test- 
modelle sind noch nicht bis zur Anwen- 
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dungsreife entwickelt worden so da 6 auf 
Datenbeispiele verzichtet werden muB. 



L iteratur 

Die mehrdimensionalen Komponentenmo- 
delle gehen auf Arbeiten von Hilke et al. 
(1977) und Stegelmann (1983) zuriick, 
wobei sich Stegelmann (1983) insbeson- 
dere mit den statistischen Eigenschaften 
des Modells (3) befaBt. Modell (6) wird 
derzeit von Rost und Carstensen (i.Vorb.) 
untersucht. Bartholomew (1987) be- 
schreibt ein faktorenanalytisches Testmo- 
dell, bei deni die Ladungen als Parameter 
geschatzt werden. Die Anwendung dieses 
Modells ist derzeit auf zwei latente 
Variablen beschrankt. 



Ubungsaufgabe: 

In der Einleitung von Kaptiel 3.4. wurde 
als ‘Beispiel 2’ ein Attributionsfragebogen 
beschrieben, der individuelle Attributions- 
stile erfassen soil. Ein 8 Items umfassen- 
der Fragebogen kombiniert die 3 dort 
genannten Faktoren vollstandig: 

1: interne, stabile Attr. eines pos. Ereig. 

2: interne, stabile Attr. eines neg. Ereig. 

3: interne, labile Attr. eines pos. Ereig. 

4: interne, labile Attr. eines neg. Ereig. 

5: externe, stabile Attr. eines pos. Ereig. 

6: externe, stabile Attr. eines neg. Ereig. 

7: externe, labile Attr. eines pos. Ereig. 

8: externe, labile Attr. eines neg. Ereig. 

Stellen Sie die Q-Matrix auf, mit der 
Sie den individuellen Attributionsstil als 
mehrdimensionale Variable erfassen kon- 
nen. Beseitigen Sie eine gegebenenfall! 
vorhandene lineare Abhangigkeit der Spal- 
tenvektoren durch Streichung von Spalten 
Formulieren Sie 2 Beispielitems. 



3.4.3 Linear-logistische Klas- 
senanalyse 

Eine Zerlegung der Modellparameter in 
Itemkomponenten bzw. deren Parameter 
ist nicht nur bei quantitativen, sondern 
auch bei klassifizierenden Testmodellen 
mbglich. Geht man von den logistisch 
transformierten Parametern der Klassen- 
analyse aus, die bereits in Kapitel 3. 1.2.4 
iiber lokalisierte Klassen und in Kapitel 

3.3.3 iiber die Analyse ordinaler Daten 
verwendet wurden, so laBt sich eine 
lineare Zerlegung leicht realisieren. Bei 
den a-Parametern der logistischen Klas- 
senanalyse 




handelt es sich um Itemparameter, die in 
ill re m Wertebereich nicht beschrankt sind, 
wie die sonst ublichen Wahrschein- 
lichkeitsparameter. Daher konnen bei einer 
additiven Zerlegung auch keine Uber- 
schreitungen des Wertebereichs auftreten. 

Im Gegensatz zu quantitativen Modellen 
sind diese Itemparameter jedoch klassen- 
speztfisch, d.h. sie unterscheiden sich fur 
verschiedene Personengruppen. Die addi- 
tive Zerlegung der Parameter 
h 

(2) (Xj g = £ qjjg Bj +Cjg 

j=l 

benotigt daher eine dreidimensionale Q- 
Matrix, wenn man im allgemeinsten Fall 
die Itemkomponenten klassenspezifisch 
definieren mochte. 

Diese Moglichkeit klassenspezifischer 
Itemkomponenten stellt einen wesentli- 
chen Unterschied zu den linear-logisti- 
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schen Rasch-Modellen dar, da hier unter- 
schiedliche Itemkomponenten fiir ver- 
schiedene Personengruppen definiert wer- 
den konnen. Dies ermoglicht z. B. die 
Auswertung von Tests, bei denen man 
annimmt, daB zwei unterschiedliche Lo- 
sungsstrategien zur Bearbeitung der Items 
eingesetzt werden konnen, die beide in der 
getesteten Population verwendet werden. 



Beispiel: zwei Losungsstrategien 

Ein Test laBt sich mit zwei unter- 
schiedlichen Strategien bearbeiten, wo- 
bei die eine Strategie aus den Denk- 
operationen A und B, die andere Stra- 
tegie aus den Denkoperationen A, C und 
D besteht. Die Items unterscheiden sich 
darin, wie oft man welche Denk- 
operation anwenden muB. Die Q-Matrix 
kann etwa wie folgt aussehen: 

Denkoperationen 
A B C D 

1 

2 

Items 3 

4 

5 

1 

2 

Items 3 

4 

5 

Wiili re nd die Schwierigkeit der Denk- 
operation A anhand der Daten alter 
Personen geschatzt wird, da sie in 
beiden Klassen verwendet wird, sind die 
Parameter der Denkoperationen B, C 
und D klassenspezifisch. 



1 


1 


0 


0 


0 


3 


0 


0 


2 


1 


0 


0 


2 


2 


0 


0 


1 


1 


0 


0 


1 


0 


1 


1 


0 


0 


1 


4 


2 


0 


1 


1 


2 


0 


2 


2 


1 


0 


1 


1 



Klasse 1 



Klasse 2 



Sind die angenommenen Itemkomponen- 
ten dagegen wirklich Komponenten der 
Items, die sich nicht zwischen den Per- 



sonen unterscheiden, so kann selbstver- 
standlich die Q-Matrix fur alle latenten 
Klassen identisch definiert werden. Aller- 
dings sind in diesem Fall fiir einige oder 
alle Denkoperationen andere Basispara- 
meter in jeder Klasse zu spezifizieren, da 
es sonst keine Parameter gibt, hinsichtlich 
derer sich die Klassen unterscheiden. 



Die folgende Q-Matrix druckt z.B. aus, 
daB in beiden Klassen die Denkopera- 
tionen A und B verwendet werden, daB 
sich die Losungswahrscheinlichkeiten der 
beiden Klassen aber nur aufgrund der 
Schwierigkeit der Denkoperation B unter- 
scheiden. 



Denkoperationen 



ABB 

1 

2 

Items 3 

4 

5 

1 

2 

Items 3 

4 

5 
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1 


0 


0 
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0 


2 


1 
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1 
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0 
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0 


0 


3 


2 


0 


1 


2 


0 


2 


1 


0 


1 



Klasse 1 



Klasse 2 



Wie auch beim linear-logistischen Test- 
modell (s. Kap. 3.4.1.) stellt die lineare 
Zerlegung der Modellparameter einen 
Spezialfall des Ausgangsmodells dar, hier 
also der noimalen latent-class Analyse. 
Das bedeutet, daB das linear-logistische 
Klassenmodell nur passen kann, wenn die 
unrestringierte latent-class Analyse Mo- 
dellgeltung besitzt. Inwieweit dann zu- 
satzlich die additive Zerlegung giiltig ist, 
laBt sich iiberpriifen, indem man die un- 
restringierten Modellparameter mit den 
aufgrund der Komponenten zuriickgerech- 
neten a; g -Parametem vergleicht (vgl. das 
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Datenbeispiel in Kap. 3.4.1). Der Ver- 
gleich laBt sich auch mit statistischen 
Mitteln durchfuhren, namlich in Form 
eines Likelihood-Quotienten-Tests (vgl. 
Kap. 5.). 

Die Parameter dieses Modells liegen, wie 
auch die Parameter der in den beiden vor- 
angehenden Kapiteln behandelten Modelle 
auf einer Absolutskala. Das bedeutet, es ist 
keinerlei Transformation der Parameter- 
werte moglich, ohne daB sich die vorher- 
gesagten Antwortwahrsehcinliehkeiten an- 
dem. 

Die lineare Zerlegung der klassenspezifi- 
schen Itemparameter laBt sich auch bei 
deni Modell der mehrkategoriellen Klas- 
senanalyse (vgl. Kapitel 3.2.1) vorneh- 
men. In der logistischen Version dieses 
Modells (vgl. Kap. 3.3.4), 




s=0 



drucken die Parameter a ixg die Tendenz 
der Personen in Klasse g aus, auf Item i 
eine Antwort in Kategorie x zu geben. 
Zerlegt man diese Parameter wiederum 
mit Hilfe einer praexperimentell spe- 
zifizierten Q-Matrix, d.h. 
h 

(4) ctj X g = X 4ixgj bj + c ixg > 

. 1=1 

so benotigt man hierfiir eine vierdimensio- 
nale Q-Matrix. In ihr sind die Gewichte 
festgelegt, mit der Komponente j bei Item 
i in Klasse g zur Antwortwahrschein- 
lichkeit der Kategorie x beitragt. 



zeigt Abbildung 115 eine Q-Matrix, die 
eine Verallgemeinerung des Modells loka- 
lisierter Klassen fiir mehrkategorielle, no- 
minale Itemantworten erzeugt (vgl. Kap. 
3. 1.2.4). Ninimt man an, daB es bei Fra- 
gebogen mit nominalem Antwortfoimat 
(vgl. das Datenbeispiel aus Kap. 3.2) fiir 
jede Klasse eine Eigenschaftsauspragung 
beziiglich jeder Kategorie, 0 xg , und fiir 

jedes Item eine Schwierigkeit hinsichtlich 
jeder Kategorie, G IX , gibt, so flihrt das zu 

deni Klassenmodell: 

_( v ex p( e x g — CT ix ) 

(5) P (X V1 x) X K g m 

g=l X ex p( e sg-<*is) 
s=0 

Es handelt sich hierbei um die lokalisierte 
Klassen Version des mehrdimensionalen, 
melirkategoriellen Rasch-Modells (Kap. 
3.2.2). Da der Exponent eine additive 
Zerlegung der a; xg -Parameter des Mo- 
dells (3) darstellt, laBt sich Modell (5) 
mittels einer geeigneten Q-Matrix mit der 
linear-logistischen Klassenanalyse berech- 
nen. Abbildung 115 zeigt diese Q-Matrix 
fiir 3 Items, 4 Kategorien und 2 Klassen. 

Die ersten drei Basisparameter r\i bis 1)3 
entsprechen in diesem Beispiel den 
kategorienspezifischen Eigenschaftsaus- 
pragungen der ersten Klasse, 9 xl . Fiir die 

0-te Kategorie kann kein Parameter ge- 
schiitzt werden, da eine entsprechende 
vierte Spalte lineare Abhangigkeit erzeugt. 
Dies ist analog zum mehrdimensionalen 
Rasch-Modell, bei dem ebenfalls nur 3 
Personenparameter geschatzt werden kon- 
nen (s. Kap. 3.2.2). Die Basisparameter 1)4 
bis r| 6 sind die Eigenschaftsauspragungen 
der zweiten Klasse. 



Als Beispiel fiir die groBe Flexibilitat 
dieses linear-logistischen Klassenmodells 
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A bbildung 115: Die Q-Matrix des lokalisierte- 
Klassen Modells (5) flir 2 Klassen, 3 Items und 4 
Kategorien 

Die iibrigen Basisparameter entsprechen 
den Itemparametern des Modells (5), 
wobei wiederum fur die 0-te Kategorie 
kein unabhangiger Parameter existiert. 

Die Ersparnis an Modellparametern ist in 
diesem Beispiel gering: statt 

m-k-G = 3-3-2 = 18 



Das Beispiel macht deutlich, dab es sich 
bei der linear-logistischen Klassenanalyse 
um eine sehr allgemeine Modellstruktur 
handelt, mit der nicht nur Hypothesen 
iiber Itemkomponenten getestet werden 
konnen, sondem auch eine Vielzahl logi- 
stischer Klassenmodelle spezifiziert wer- 
den kann. Insbesondere lassen sich die 
Klassenmodelle fur ordinale Daten (Kap. 
3.3.3 und 3.3.4) mittels geeigneter Q- 
Matrizen herstellen. 

Der Preis fur den hohen Allgemeinheits- 
grad dieser Modellstruktur liegt jedoch irn 
praktischen Umgang mit dem Modell: die 
Q-Matrix wird bei mehreren Items, 
Kategorien und Klassen sehr groB und 
uniibersichtlich. 



Literatur 

Die linear-logistische Klassenanalyse fiir 
dichotome Daten wird ausfiihrlich von 
Formann (1984) behandelt. Weitere An- 
wendungen finden sich in Formann (1985, 
1989). Die Verallgemeinerung fiir 
polytome Daten geht ebenfalls auf 
Formann zuriick (1992). 



Ubungsaufgabe: 

Spezifizieren Sie analog zu Abbildung 1151 
die Q-Matrix fiir das ordinale Klassen- 
modell (7) in Kapitel 3.3.3 mit (dekumu- 
lierten) Schwellenparametem T 1X (eben- 
falls fiir 2 Klassen, 3 Items und 4 Kate- 
gorien). 



unrestringierte A nt wort wall rse hciniiehkei- 
ten irn normalen Klassenmodell sind irn 
linear-logistischen Modell 15 Basispa- 
rameter zu schatzen. Die Einsparung wird 
jedoch umso groBer, je mehr Items und 
Klassen man hat. 
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3.5 Modelle der Verande- 
rungsmessung 

Die Messung von Veranderungen mit 
Hilfe von Tests und Fragebogen ist eine 
sehr weit verbreitete Forschungsmethode 
in alien Bereichen der angewandten Psy- 
chologic. Dies betrifft die Kontrolle des 
Therapieverlaufs oder Therapieerfolgs in 
der klinischen Psychologie genauso wie 
die Messung des Leistungsfortschrittes 
und des Lemzuwachses in der padago- 
gischen Psychologie. Es betrifft auch ent- 
wicklungspsychologische Fragestellungen 
wie die Untersuchung der Interessenent- 
wicklung oder der Intelligenzdifferenzie- 
mng genauso wie experimentalpsycholo- 
gischen Studien, in denen sich durch die 
experimentellen MaBnahmen etwas veran- 
dert. Bei genauerer Betrachtung kann man 
sogar zu der SchluBfolgerung konmien, 
daB sich die meisten psychologischen Fra- 
gestellungen auf irgendeine Veranderung 
des menschlichen Erlebens und Verhaltens 
beziehen, sei es als Folge von Reifung, 
Lernen, Situationsanpassung, Alterung, 
Ermudung, Personlichkeitsentwicklung 
oder was auch inmrer. 



den folgenden Unterkapiteln werden drei 
solche Ansatze behandelt. 



Erstens kann man Veranderungsmessung 
als eine Erweiterung der zweidimen- 
sionalen Datenstruktur von Testdaten um 
eine dritte Dimension, namlich die Zeit, 
auffassen. Man hat es im Falle der Ver- 
anderungsmessung also nicht mein - mit 
einer Datenmatrix Personen x Items, son- 
dem mit einem Datenkubus Personen x 
Items x Zeitpunkte zu tun. 



Personen 



r Zeitpunkte 

Items 



Abbildung 116: Der Datenkubus der Verande- 
rungsmessung 



In diesem Ansatz stellt sich Verande- 
rungsmessung als die Erweiterung der 
Testtheorie von zwei auf drei Faktoren des 
Antwortverhaltens in einem Test dar. Dies 
wird in Kapitel 3.5.2 behandelt. 



Dem steht gegeniiber, daB in den Test- 
modellen, soweit sie bisher behandelt wur- 
den, Lernen und Veranderung gar nicht 
vorgesehen ist, ja man kann sogar sagen, 
die Modelle sind zunachst einmal starr 
und statisch: Konzepte wie Personenfa- 
higkeit oder Itemschwierigkeit setzen eher 
Stabilitat als Veranderung voraus. Dies ist 
der Grund, weswegen Modellen zur Ver- 
anderungsmessung ein eigenes Kapitel 
gewidmet ist. 

Es gibt verschiedene Ansatze, eine Er- 
weiterung der Testtheorie in Richtung auf 
Veranderungsmessung vorzunehmen. In 



Zweitens kann Veranderung auch heiBen, 
daB sich die Personenfahigkeit wdhrend 
der Testbearbeitung verandert, also das 
Stabilitatsprinzip der Personenvariable 
aufgegeben wird. Man spricht in diesem 
Fall von dynamischen Testmodellen, da 
sich die zu messende Variable, die Per- 
sonenfahigkeit, wahrend der Testbearbei- 
tung verandert. Diese Veranderung ist 
meistens irgendeine Form von Lernen, 
weswegen man auch von ‘Lernen wahrend 
der Testbearbeitung' spricht. Dieser An- 
satz wird in Kapitel 3.5.3 behandelt. 
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Drittens geht es bei der Veranderungsmes- 
sung oft darum, die Ursachen einer Ver- 
anderung z. B. in Form von bestimmten 
experimentellen Mafinahmen zum Gegen- 
stand der Messung zu machen. Das be- 
deutet, dab bestimmte Veranderungen im 
Antwortverhalten auf bestimmte MaBnah- 
men oder Einfliisse auf dieses Testver- 
halten zuruckgefiihrt werden sollen. Dafur 
benotigt man Testmodelle, in denen solche 
Faktoren in Fomi von Modellparametem 
beriicksichtigt werden konnen. Dieser An- 
satz wird in Kapitel 3.5.4 behandelt. 

Bevor diese drei zentralen Ansatze der 
Erweiterung von Testmodellen behandelt 
werden, muB - nicht nur aus historischen 
Grim den - auf die sogenannten klassischen 
Probleme der Veranderungsmessung ein- 
gegangen werden. Dieses Kapitel 3.5.1 
behandelt im engeren Sinne keine Testmo- 
delle, macht aber die Notwendigkeit eige- 
ner Testmodelle fur die Verandemngs- 
messung deutlich und schafft eine Grund- 
lage fur das Verstandnis dieser Modelle. 



3.5.1 Klassische Probleme der 
Veranderungsmessung 

Die klassischen Probleme der Veran- 
derungsmessung beziehen sich auf die 
denkbar einfachste Datenstruktur fur Ver- 
anderungsmessung, namlich den Fall, daB 
ein Test zu zwei Zeitpunkten vorgegeben 
wird, zwischen denen Veranderung statt- 
findet. Man hat es also nicht mit einer 
Datenmatrix zu tun, sondern mit zwei 
Datenmatrizen, wobei zunachst davon 
ausgegangen wird, daB nicht nur die 
Personen sondern auch die Items zu 
beiden Zeitpunkten dieselben sind. 



Personen 



I t=2 

t=l 

Items 



Abbildung 117: Die Datenstruktur fur zwei 
Zeitpunkte 

Als MaB fur die Veranderung gilt in die- 
sem Fall der Differenzwert der Personen- 
variable zum Zeitpunkt t=l und zum 
Zeitpunkt t=2, also 

Dy = ®v2 — e vl • 



Mit diesen Differenzwerten sind drei 
Probleme verbunden, namlich 

1. sie sind meistens sehr unreliabel, also 
mit einem hohen MeBfehler behaftet, 

2. sie korrelieren negativ mit der Perso- 
nenvariable zum Zeitpunkt t=l, d. h. 
der sogenannte Anfangswert und der 
Differenzwert sind negativ korreliert 
und 

3. es stellt sich die Frage, ob man diese 
Differenzen iiberhaupt bilden darf, da 
man bekanntlich nur Gleiches von 
Gleichem abziehen darf. Es ist die Fra- 
ge zu beantworten, ob Vor- und Nach- 
test dasselbe messen. 

Da diese drei Probleme grundsatzlicher 
Natur sind und in alien Ansatzen zur Ver- 
anderungsmessung in der einen oder an- 
deren Form auftauchen, werden sie im 
folgenden eingehender behandelt. 

Dabei wird eine vereinfachte Notation 
verwendet, bei der die Messung im Vor- 
test, also zum ersten Zeitpunkt mit X, die 
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Messung im Nachtest mit Y bezeichnet 
wird. D bezeichnet den Differenzwert 

D = Y-X . 

Dariiber hinaus wird die Notation der 
MeBfehlertheorie verwendet, d.h. 

- D, X und Y bezeichnen die fehlerbe- 

hafteten MeBwerte, 

- T d , T x und T Y die zugehorigen wah- 

ren, d.h. fehlerfreien MeBwerte und 

- E d = D - T d 
E x = X-T x 

E Y = Y - T Y deren jeweilige Differen- 
zen als Fehlervariablen. 

Der Bezug zur sonst in Kapitel 3 verwen- 
deten Notation besteht darin, daB die 
MeBwerte X und Y den anhand der Daten 
geschatzten Personenparametem zu zwei 
Zeitpunkten entsprechen und die wahren 
Werte T x und T Y den exakten Parameter- 
werten der Personen. Zur Abgrenzung von 
den fehlerfreien Personenparametem 0 
werden deren Schatzungen oft mit einem 
Dach gekennzeichnet 0 , so daB X = 0 und 
T x = 0 ist. In Kapitel 6.1.1 wird darge- 
stellt, daB die Differenz von dem exakten 
Personenparameter und seiner Schatzung, 
Eq = 0 - 0 , eine Fehlervai'iable im Sinne 
der MeBfehlertheorie ist. 

3.5.I.I. Die Reliabilitat von Dif- 
ferenzwerten 

Das Konzept der Reliabilitat von MeB- 
werten wurde bereits in Kapitel 2.1.2 im 
Rahmen der allgemeinen MeBfehlertheorie 
eingefiihi't. Es bezeichnet das Verhaltnis 
der Vai'ianz der wahren MeBwerte zur 
Varianz der tatsachlich erhaltenen, also 
fehlerbehafteten MeBwerte, 



( 1 ) 



Rel(9) = — 

Var(0) 



oder in der Notation der MeBfehlertheorie 
Var(T x ) 



Rel(X) = 



Var(X) 



Nach dieser Definition lautet die Reliabi- 
litat von Differenzwerten 



( 2 ) 



Re 1(D) = 



Var(T D ) 
Var(D) ' 



Da sich der Differenzwert aus dem wahren 
Differenzwert T D und dem MeBfehler E D 
zusammensetzt, 

D = T d + E d 

und sich deren Varianzen auch addieren 
(vgl. Kap. 2.1.2): 

Var(D)=Var(T D )+Var(E D ), 



laBt sich Gleichung (2) auch umformen zu 



(3) Rel(D) = 



Var(D)-Var(E D )_ i Var(E D ) 
Var(D) Var(D) ’ 



Die Vai'ianz der Differenzwerte im Nenner 
von (3) laBt sich auf die Varianzen von 
Vor- und Nachtest, unter Beriicksichti- 
gung von deren Kovarianz zuriickfiihi'en 
(vgl. Kap. 2.1.2): 

Var(D) = Var(X) + Var(Y)-2Cov(X,Y). 



Die Fehlervai'iable der Differenzwerte, E D , 
laBt sich als Differenz der beiden Fehler- 
variablen von Vor- und Nachtest darstel- 
len: 

e d = d-t d =(y-x)-(t y -t x ) 

= Ty + Ey - (T X + E X ) - Ty + T X 
= Ey-E X , 
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so daB sich auch deren Varianzen addieren 

Var(E D ) = Var(E Y ) + Var(E x ), 

wenn man annimmt, daB die Fehlervaria- 
blen unkorreliert sind. Diese Annahme 
wird zwar im Rahmen der MeBfehlertheo- 
rie meistens getroffen (s. das sog. Axiom 
IV der MeBfehlertheorie, Kap. 2.1.2), ist 
aber gerade bei der Veranderungsmessung 
problematisch und wird bei einigen 
statistischen Modellen der Veranderungs- 
messung auch nicht oder nur in abge- 
schwachter Form getroffen. 

Setzt man diese Varianzzerlegungen in 
Gleichung (3) ein, so ergibt sich 



Hohe der Reliabilitat fiihrt, wenn beide 
MeBwerte nicht miteinander korrelieren. 
Eine solche Nullkorrelation ist aber im 
Rahmen von Veranderungsmessung kaurn 
denkbar, da ja beide Messungen dieselbe 
Variable erfassen sollen, lediglich mit 
einer mein' oder weniger groBen Verande- 
rung zwischen den Messungen. Das 
Resultat klingt paradox, ist aber - wie die 
obigen Ausfiihrungen gezeigt haben - 
durchaus logisch nachvollziehbar: 

Je holier die Korrelation der Mef.i- 
werte zwischen zwei Mefizeitpunkten 
ist, desto geringer ist die Reliabilitat 
der Dijferenzwerte. 



(4) Rel(D) = 1 - 



Var(E x ) + Var(E Y ) 

Var(X) + Var(Y)-2 Cov(X,Y) ' 



Aus dieser Gleichung wird ersichtlich, daB 
in die Reliabilitat der Differenzwerte die 
MeBfehlervai'ianzen von beiden MeBzeit- 
punkten additiv eingehen. Salopp ausge- 
druckt, haben die Differenzwerte einen 
doppelten Mefifehleranteil, was fiir die ge- 
ringere Reliabilitat verantwortlich ist. 

Betrachtet man den Nenner in Foimel (4), 
so stellt man fest, daB hier auch die 
Vai'ianzen der geschatzten MeBwerte sich 
addieren und der Bruch sornit wieder 
ausgewogener wird. Im Gegensatz zum 
Zahler wird aber im Nenner die doppelte 
Kovarianz der Mefiwerte von der Summe 
ihrer Vai'ianzen wieder abgezogen. D. h. 
der Nenner verringert sich in dem MaB, in 
dem die beiden MeBwerte miteinander 
kovai'iieren. Der doppelte MeBfehleranteil 
im Zahler wird also nicht durch eine 
doppelt hohe Varianz im Nenner kom- 
pensiert - wenn Vor- und Nachtestwerte 
kovai'iieren. 



Man kann sagen, daB diese Reliabi- 
litatsformel nur dann zu einer ‘normalen’ 



Dieser Sachverhalt kann auch graphisch 
nachvollzogen werden, wie die folgende 
Abbildung zeigt 



Nachtest 




Abbildung 118: Differenzwerte als Abweichungen 
von der 45-Grad Linie 



Die Differenzwerte D sind in der Abbil- 
dung als senkrechte Linien zwischen den 
Punkten, die jeweils eine Person repra- 
sentieren, und der 45°-Linie dargestellt. Je 
schmaler und je langhcher die Punk- 
tewolke ist, desto holier ist die Korrelation 
von Vor- und Nachtestwerten und desto 
kleiner wird auch die Varianz von D. Sie 
nahert sich im Extremfall der Gro- 
Benordnung der Fehlervarianz der beiden 
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MeBwerte an, was dann eine Reliabilitat 
von Null bedeutet. 

Man kann aus diesen Uberlegungen 
folgern, daB zwei MeBwertreihen X und Y 
moglichst unabhdngig voneinander vari- 
ieren miissen, wenn die Differenzwerte 
reliabel sein sollen. Verandern sich alle 
Personen in etwa gleichem AusmaB, so 
ist die Korrelation von X und Y sehr hoch 
und die Reliabilitat der Differenzwerte 
nahe Null. 



Es liegt an der Definition der Reliabilitat 
als Varianzverhaltnis, daB die Reliabilitat 
von Differenzwerten nicht nur etwas 
dariiber aussagt, wie genau intraindi- 
viduelle Veranderungen (= innerhalb der 
Person) gemessen werden, sondem auch 
wie stark die interindividuellen Unter- 
schiede (= zwischen den Personen) dieser 
Veranderung sind. 



Wall rend Formel (4) die Reliabilitat der 
Differenzwerte auf die Varianzen und 
Kovarianzen von Vor- und Nachtest zu- 
riickfuhrt, zeigt die folgende Gleichung 
die Abhangigkeit der Reliabilitat der Dif- 
ferenzwerte von der Reliabilitat von Vor- 
und Nachtest und deren Korrelation. 
Unter der Annahme, daB zu beiden MeB- 
zeitpunkten die Fehlervarianzen gleich 
sind, die Varianzen der geschatzten MeB- 
werte gleich sind und somit auch deren 
Reliabilitaten gleich sind, gilt die folgende 
Beziehung: 



( 5 ) 



Rel(D) = 



Rel(X) - Korr(X, Y) 
1 - Korr(X, Y) 



Ableitung: 



Aus der Reliabilitatsdefinition 



Re 1(D) = 



Var(D) - Var(E D ) 
Var(D) 



folgt nach Einsetzen von D = X - Y und 
E d = E y - E x wegen der Unkorreliertheit 
der MeBfehler: 



Rel(D) = 

Var(X) + Var(Y)- 2 Cov(X.Y)- Var(E x ) - Var(E Y ) 
Var(X) + Var(Y)-2Cov(X,Y) 



Nimmt man vereinfachend an, daB 
die Fehlervarianzen gleich sind, 
Var(E x ) = Var(E Y ), und die MeBwert- 
varianzen gleich sind, Var(X) = Var(Y), 
und dividiert man Zahler und Nenner 
durch Var(X), so ergibt sich 



Rel(D) = 



1 + 1 - 2 • Korr(X, Y) - 2(1 - Rel(X)) 
1 + 1 - 2 • Korr(X, Y) 



da 



Var(E x ) 

Var(X) 



= 1 - Re l(X) ist. 



Kiirzt man die 2, so ergibt sich 



Re 1(D) = 



Rel(X) — Korr(X, Y) 
1 - Korr(X, Y) 



Man sieht an dieser Gleichung, daB unter 
den getroffenen, vereinfachenden Annah- 
men die Reliabilitat der Differenzwerte 
nur dann in ihrer Hohe der Reliabilitat 
eines der beiden beteiligten MeBwerte 
entspricht, wenn die Korrelation der bei- 
den MeBwerte 0 ist. Je holier beide MeB- 
wertreihen miteinander korrelieren, desto 
starker sinkt die Reliabilitat der Differenz- 
werte. 



Korr(X,Y) bezeichnet die Korrelation von 
Vortest X und Nachtest Y. 



Betragt z.B. die Reliabilitat beider Mes- 
sungen 0.8 und korrelieren beide Messun- 
gen mit 0.7 miteinander, so betragt die 
Reliabilitat der Differenzwerte lediglich 
0.33. 
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Fiir die Testkonstruktion ist aus diesen 
Ableitungen die Folgerung zu ziehen, daB 
man fiir Veranderungsmessung moglichst 
anderungs sensitive Items formulieren 

muB, die dem sonst iiblichen Prinzip mog- 
lichst groBer Stabilitat gegeniiber der 
Testsituation widersprechen. Aufgrund der 
Reliabilitatsproblematik erfordert Veran- 
derungsmessung auch eine andere Art der 
Itemkonstruktion. 

3.5.1.2 Die Korrelation von An- 
fangswert und Differenzwert 

Bei vielen Anwendungen von Modellen 
zur Veranderungsmessung miissen Fragen 
beantwortet werden, die gleichzeitig den 
Ausgangswert der Veranderung (Anfangs- 
wert) wie das AusmaB der Veranderung 
(Differenzwert) betreffen. Oft ist man auch 
direkt am Zusammenhang von Anfangs- 
wert und Differenzwert interessiert, etwa 
wenn es darum geht, ob das AusmaB der 
Verandemng eine andere diagnostische In- 
formation besitzt als das Ausgangsniveau. 

In beiden Fallen macht es sich sehr 
nachteilig bemerkbar, daB Anfangswert 
und Differenzwert artifiziell, d.h. kiinstlich 
miteinander korreliert sind, und zwar in 
negativer Richtung. Das bedeutet, daB nie- 
drigere Anfangswerte mit hoheren Diffe- 
renzwerten also Zuwachswerten ein- 
hergehen. Generell gibt es fiir die negative 
Korrelation von Anfangs- und Differenz- 
wert einen psychologischen, einen techni- 
schen und einen algebraischen Grand. 

Der psychologische Grand kann darin lie- 
gen, daB Probanden mit niedrigeren Aus- 
gangswerten einfach mehr Moglichkeiten 
haben, sich in positive Richtung zu 
verandern und somit hohere Differenz- 
werte hervorzubringen. Z.B. haben Schii- 



ler mit schlechteren Ausgangsleistungen 
die grdfieren Chancen etwas dazu zu 
lernen, wenn der Unterricht auf die For- 
derung des unteren Leistungsspektrums 
ausgerichtet ist. Eine empirisch ermittelte 
negative Korrelation von Anfangswert und 
Differenzwert kann damit eine bestimmte 
inhaltliche Bedeutung haben, die mit der 
Abstimmung der VeranderungsmaBnahme 
auf das Ausgangsniveau zu tun hat. Eine 
dadurch bedingte negative Korrelation ist 
nicht artifiziell, sondern substantiell. 

Der technische Grand liegt darin, daB der 
Voidest naturgemaB oft zu schwer ist, d.h. 
viele Items nicht in positiver Richtung 
beantwortet werden, wahrend der Nachtest 
nach erfolgter MaBnahme oft zu leicht ist. 
Dies gilt nicht nur fiir Leistungstests, bei 
denen man vor einem Lernprogramm oft 
iiberfordert ist, wahrend der Test nach 
deni Lernprogramm zu leicht ist. Das gilt 
ini ubertragenen Sinne auch fiir die 
Erfolgskontrolle bei Therapiestudien oder 
anderen V eranderungsmaBnahmen . 

In diesem Fall weist der Vortest einen 
Bodeneffekt (Flooreffekt) auf, walirend 
der Nachtest einen Deckeneffekt (Ceiling- 
effekt) aufweist (vgl. Kap. 3.1). Diese 
Effekte sind insbesondere dann zu erwar- 
ten, wenn man dieselben Items fur beide 
Zeitpunkte verwendet, anstatt die Items im 
Nachtest ein wenig schwerer, die im 
Vortest ein wenig leichter zu gestalten. 

Wahrend beide Effekte generell eine Er- 
hohung der Fehlervarianz im Vergleich 
zur tatsachlichen Varianz der Personenva- 
riable, und somit eine Senkung der 
Reliability bewirken, bewirkt ein Ceiling- 
effekt im Nachtest speziell eine Ver- 
anderung der Korrelation zwischen An- 
fangswert und Differenzwert in Richtung 
einer Ncgativkorrelation. Dieser Effekt ist 
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durch eine geeignete Testkonstruktion ini 
Prinzip behebbar. 

Die eigentlich problematische, weil al- 
gebraisch bedingte Ursache fiir die ne- 
gative Korrelation liegt darin, daB hier 
eine Variable mit einer Funktion von sich 
selbst korreliert wird, und somit eine Ail 
von ‘Autokorrelation’ (dt. etwa Selbstkor- 
relation) erzeugt wird. Der Differenzwert 
ist eine lineare Funktion vom An- 
fangswert, in der der Anfangswert mit 
negativem Vorzeichen enthalten ist. Somit 
wird die Korrelation zwischen Anfangs- 
werten und Differenzwerten negativ be- 
einl'l uBt. 

Diese Ursache kann man noch in zwei 
Teilkomponenten aufteilen, namlich ein- 
mal tritt dieser Effekt auch bei vollig 
exakten Messungen, d.h. unabhdngig vom 
Einflufi eines M efifehlers auf. Zum 
anderen tragt der MeBfehler zusatzlich zur 
Veranderung der Koixelation in negativer 
Richtung bei. Beides soli anhand eines 
kleinen Datenbeispiels verdeutlicht wer- 
den. 

Beispiel: unkorrelierter Vor- und 

N achtest 

Die folgende Abbildung zeigt die fehler- 
freien Vor- und Nachtestergebnisse von 
vier Personen mit einer Null-Koixelation 
zwischen den beiden MeBzeitpunkten. 



T y 




Jeder VortestmeBwert ist in diesem Daten- 
beispiel gleich oft mit jedem Nach- 
testmeBwert verkniipft, so daB es sich 
korrelationsstatistisch um zwei vollig un- 
abhdngige Dimensionen handelt. 

T d 

3— 1 * 



0 — , f | p -'f t-t x 

- 2 5 

-3 J * 

Die zweite Abbildung zeigt das Punkte- 
diagramm fiir Anfangswert und Differenz- 
wert, woraus deutlich ersichtlich ist, daB 
die Koixelation zwischen beiden negativ 
st. Dieser Effekt ist nicht uberraschend. 
sondem eine algebraische Notwendigkeit. 

Die zweite Wirkkomponente stellt der 
Mefifehler des Vortests, Ex, dar, der in 
beide Variablen, die hier miteinander kor- 
reliert werden, mit umgekehrtem Vor- 
zeichen eingeht: 

(1) Korr(X,D) = Korr(T x + E X ,T D + Ej)) 
= Korr(T x +E x ,T Y -T x +E Y -E x ) 

Dies full rt dazu, daB sogar in Datensatzen, 
bei denen (wahrer) Anfangswert und 
(wahrer) Differenzwert tatsdchlich unkor- 
reliert sind, eine negative Korrelation der 
meBfehlerbehafteten Messungen zu beob- 
achten ist. Das folgende Beispiel soil dies 
verdeutlichen. 



12 3 4 5 
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Beispiel: unkorrelierter Anfangs- und 
Differenzwert 



T X 


t d 


t y 


Ex 


X 


D= 

Ty-X 


2 


1 


3 


+1 


3 


0 


2 


3 


5 


+1 


3 


2 


5 


1 


6 


+1 


6 


0 


5 


3 


8 


+1 


6 


2 


2 


1 


3 


-1 


1 


2 


2 


3 


5 


-1 


1 


4 


5 


1 


6 


-1 


4 


2 


5 


3 


8 


-1 


4 


4 



Die Tabelle gibt die MeBwerte von 8 
Personen wieder, deren walirer Anfangs- 
wert T x niclit mit ihr em wahren Diffe- 
renzwert T d korrcliert. Man sieht dies 
daran, daB jede Valenz von T D gleich 
laufig mit jeder Valenz von T x 
kombiniert ist. 

Wahrend T Y meBfehlerfrei bleibt, was 
die Aussagekraft des Beispiels nicht be- 
eintrachtigt, wird fur T x ein MeBfehler 
E x eingefiihrt, der sowohl mit T x als 
auch mit T D unkorreliert ist. Fiir das 
meBfehlerbehaftete X = T x + E x zeigt 
sich eine negative Korrelation mit D: 

D 

* * 

* * * * 

* * 

1 1 1 1 I I I x 

1 2 3 4 5 6 7 



5- 

4- 

3- 

2 - 

1 - 



Wahrend man gegen den erstgenannten 
Wirkungsmechanismus nichts untemeh- 
men kann (es ist und bleibt problematisch, 
eine Variable mit einer Funktion ihrer 



selbst zu korrelieren), so kann man den 
Effekt des Mefifehlers abschatzen und die 
empirisch berechnete Korrelation ent- 
sprechend korrigieren. Dies geht mit Hilfe 
einer sogenannten Verdiinnungsformel, die 
man irn Rahmen der allgemeinen MeB- 
fehlertheorie ableiten kann (s.a. Kap. 
6.4.2). 

Der Zweck solcher Verdiinnungskorrek- 
turen von Korrelationskoeffizienten be- 
steht darin, die Korrelation zu berechnen, 
die sich ergeben wiirde, wenn man meB- 
fehlerfrei messen konnte. 

Mit Hilfe der sogenannten Axiome der 
MeBfehlertheorie (s.o. Kap. 2.1.2 und 
Kap. 6.1.1) laBt sich fiir die Korrelation 
von mefifehlerfreiem Anfangswert T x und 
mefifehlerfreiem Differenzwert T D die 
folgende Formel ableiten (s bezeichnet die 
Standardabweichung s(X) = ^/Var(X), s 2 
die Varianz und r die Korrelation): 

(8) r(T x T D ) = 

s(Y)r(X,Y)-s(X)Rel(X) 

^Re l(X)(Re 1( Y)s 2 ( Y) + Re l(X)s 2 (X) - 2r(X, Y)s(X)s( Y)) 

Um die Struktur dieser Formel zu er- 
kennen, ist es sinnvoll, sie mit Hilfe zu- 
satzlicher Annahmen weiter zu verkiirzen. 
So ergibt sich unter der Annahme, daB die 
Varianzen von Vor- und Nachtest gleich 
und auf eine Varianz von 1 standardisiert 
sind, die folgende Verkiirzung: 

(9) r(T x ,T D ) = 

r(X, Y) - Rel(X) 

VRel(X)(Rel(X) + Rel(Y) - 2(r(X, Y))) ‘ 

Man sieht an dieser Gleichung, daB unter 
der genannten Annahme die Korrelation 
von wahrem Anfangswert und wahrem 
Differenzwert in der Regel negativ ist, da 
die Reliabilitat des Vortests groBer als die 
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Korrelation mit deni Nachtest ist (und 
soniit der Zahler negativ wird). DaB die 
Reliabilitat eines MeBwertes stets groBer 
ist als jede Korrelation mit einem anderen 
MeBwert gleicher Reliabilitat, ergibt sich 
aus den Annahmen der MeBfehlertheorie 
(S.U. Kap. 6.4.2). 

Nimmt man weiter an, daB Vor- und 
Nachtest mefifehlerfrei sind, also die 
Reliabilitaten von X und Y gleich 1 sind, 
so verkiirzt sich diese Formel weiter zu 



eine Erhohung der Varianz des Nachtests 
im Vergleich zum Vortest. 

Generell muB man sich dieser negativen 
Koixelation und ihrcr verschiedenen Ursa- 
chen bewuBt sein, wenn man mit An- 
fangswert und Differenzwert gemeinsam 
weitere Berechnungen anstellt, z.B. klaren 
in Regressionsanalysen Anfangswert und 
Differenzwert als Pradiktoren gleiche An- 
teile der Kriteriumsvarianz auf. 



(10) r(T x ,T D ) 



r (X, Y) — 1 
V2 Vl-r(X,Y)' 



3.5.1.3 Messen Vor- und Nachtest 
dasselbe? 



Aus ihr ist der bereits oben dargestellte 
Sachverhalt ablesbar, daB selbst bei einer 
Nullkoirelation von Vortest und Nachtest 
der Vortest mit dem Differenzwert negativ 
korreliert, und zwar unabhdngig vom 
Mefifehler. Unter den genannten Annah- 
men betragt diese Korrelation 




Rechnet man fur das obengenannte kleine 
Datenbeispiel die Hohe der negativen 
Korrelation aus, so ergibt sich ebenfalls 
dieser Betrag von -0.7. 

Betrachtet man abschlieBend noch einmal 
die vollstandige Formel (8), so sieht man, 
daB die Korrelation zwischen wahrem 
Anfangswert und wahrem Differenzwert 
iiberhaupt nur positiv werden kann, wenn 
die Varianz der Mefiwerte im Nachtest 
sehr vie l grofier ist als die Varianz der 
MeBwerte im Vortest. Dies ist auch intui- 
tiv nachvollziehbar, denn bei einer positi- 
ven Korrelation von Anfangswert und 
Differenzwert komnien zu niedrigen An- 
fangswerten kleine Differenzen hinzu, 
wahrend zu groBen Anfangswerten groBe 
Differenzen hinzukommen. Dies bewirkt 



Der Volksmund sagt, man darf nicht Apfel 
und Birnen zusammenzahlen. Genauso 
wenig darf man MeBwerte voneinander 
subtrahieren, wenn nicht klar ist, daB 
wirklich dieselbe Variable gemessen wur- 
de. Dies ist das Validitatsprohlem der 
Veranderungsmessung. 

Genauso wie man bei der Berechnung 
eines MeBwertes aufgrund von Itemant- 
worten zu priifen hat, ob alle Items die- 
selbe Personenvariable messen, so muB 
auch bei der Bildung von Differenzwerten 
gepriift werden, ob die gemessene Perso- 
nenvariable zu beiden Zeitpunkten die- 
selbe ist. 

Zu einem 'klassisehen' Problem der Ver- 
anderungsmessung ist dieser Sachverhalt 
deswegen geworden, weil normalerweise 
mit Hilfe der Korrelation zwischen zwei 
Variable!! gepriift wird, inwieweit beide 
Variablen dasselbe messen. Im Falle von 
Veranderungen zwischen beiden MeBzeit- 
punkten versagt dieses Instrument der 
Koixelation, denn die Personenwerte s al- 
ien sich ja in individuell unterschiedlicher 
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Weise verandem (und daher niedrig mit- ware mit entsprechenden Modellgel- 
einander korrelieren). tungskontrollen zu priifen (s.U. Kap. 5.). 



Mit der Anwendung von Testmodellen 
gibt es andere Moglichkeiten, die Frage 
nach der Validitat zu beantworten, so dab 
dieses Problem losbar wird. 

'Dasselbe messen’ heibt bei Testmodellen 
nichts anderes, als dab sich zwischen den 
Zeitpunkten lediglich die Ausprdgungen 
der Personenvariable verandern diirfen, 
alle anderen Modellparameter aber kon- 
stant bleiben miissen. 

Das bedeutet, man kann die Itemantworten 
zum zweiten Testzeitpunkt so behandeln 
als waren sie von anderen Personen 
hervorgebracht worden. Die Priifung, ob 
die echten Personen (zum ersten Meb- 
zeitpunkt) und die virtuellen Personen 
(zum zweiten Mebzeitpunkt) gemeinsam 
die Bedingungen eines Testmodells erfiil- 
len, beantwortet dann die Frage, ob Vor- 
und Nachtest dasselbe messen. 

Konkret ausgedriickt, kann man die 
Datenmatrizen von beiden Mebzeitpunk- 
ten untereinander schreiben und mit 
doppelter Personenanzahl bei gleicher 
Itemanzahl die Parameter eines Testmo- 
dells schatzen. Dies setzt natiirlich voraus, 
dab zu beiden Mebzeitpunkten dieselben 
Items verwendet wurden. 

Dieser Weg zur Untersuchung des Vali- 
ditatsproblems ist sowohl bei quantitati- 
ven wie bei qualitativen Testmodellen 
anwendbar. 

Im ersten Fall miissen die Itemparameter 
filr alle Personen konstant sein, d.h. sie 
diirfen sich fiir die echten und die vir- 
tuellen Personen nicht unterscheiden. Das 



Items 
1 k 

1 

echte ! 

t=l 

Personen 

N 

1 

2 virtuelle ! 

Personen 

N 

Abbildung 119: Reorganisation der Datenmatrix 



Im zweiten Fall einer kategorialen Per- 
sonenvariable heibt das, dab sich zu 
beiden Mebzeitpunkten dieselben Klassen 
ergeben miissen. Es miissen sich fiir Vor- 
und Nachtest dieselbe Klassenanzahl und 
dieselben Antwortwalirscheinlichkeiten in- 
nerhalb der Klassen ergeben. Veranderung 
driickt sich dann durch einen Wechsel der 
Personen von einer Klasse zu einer ande- 
ren Klasse aus. 



Im Extremfall kann sich auch ergeben, dab 
es beim Nachtest Klassen gibt, die es im 
Voidest noch nicht gab, und im Voidest 
Klassen gab, die es beim Nachtest nicht 
mehr gibt. Andern sich jedoch die Ant- 
wortwahrscheinlichkeiten in den Klassen 
zwischen den beiden Mebzeitpunkten, so 
ist das Validitatsproblem der Verande- 
rungsmessung nicht gelost: es gibt keinen 
Beleg dafiir, dab Vor- und Nachtest das- 
selbe messen. 



Die Voraussetzung dieser Art der 
Untersuchung der Validitatsproblematik, 
dab namlich zu beiden Mebzeitpunkten 
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clieselben Items verwendet werden, ist selir 
restriktiv. Man kann die Uberlegungen 
jedoch auf die Situation verallgemeinern, 
daB lediglich einige Items im Vor- und 
Nachtest identisch sind. Man erhalt dann 
eine unvollstandige Datenmatrix (s. Abb. 
120) und die Beantwortung der Validitats- 
frage ruht lediglich auf den jeweiligen 
Briickenitems. 



Items 




Items, die nur im Vortest oder nur im 
Nachtest vorgegeben werden, tragen nichts 
zur Klamng der Frage bei, ob Vor- und 
Nachtest dieselbe Personenvariable mes- 
sen. 



Ubungsaufgaben: 

1. Wie hoch ist die Reliabilitat der Dif- 
ferenzwerte, wenn Vor- und Nachtest 
eine Reliabilitat von 0.8 haben und ill re 
Korrelation 0.5 betragt? 

2. Wie hoch ist unter den Gegebenheiten 
der Aufgabe 1 und der Annahme glei- 
cher Varianzen von Vor- und Nachtest 
die Korrelation von wahrem Anfangs- 
wert und wahrem Differenzwert? Wie 
groB muB die Varianz des Nachtests 
mindestens sein, damit diese Korrela- 
tion positiv wird (die Varianz des 
Vortests betragt 1)? 

3. Vortest und Nachtest bestehen aus 
unterschiedlichen Items und es gibt 
keine Briickenitems. Sie haben jedoch 
beide Tests zu einem Zeitpunkt, d.h. 
ohne VeranderungsmaBnahme, einer 
zweiten Personenstichprobe vorgege- 
ben. Was tun Sie zur Klarung der Fra- 
ge, ob Vor- und Nachtest in der Veran- 
derungsstichprobe dasselbe messen? 



Literatur 

Die klassischen Probleme der Verande- 
rungsmessung wurden von Bereiter (1963) 
und Cronbach & Furby (1970) syste- 
matised behandelt. Verdiinnungsformeln 
zur Beriicksichtigung des MeBfehlers bei 
der Veranderungsmessung finden sich in 
Lord & Novick (1968). Neuere Darstel- 
lungen geben Peteimann (1978), Raykov 
1994, Renkl & Gruber (1995), Rogossa 
(1988), Rogossa et al. (1982) und Willet 
(1989). 
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3.5.2 Dreifaktorielle Testmo- 
delle: Personen, Items und 
Zeitpunkte 

Die Aufgabenstellung der Veranderungs- 
messung wird in diesem Kapitel als die 
Verallgemeinerung der Testtheorie von 
einer zweidimensionalen Datenstruktur 
(Personen x Item-Datenmatrix) auf eine 
dreidimensionale Datenstruktur betrachtet 
(s. Abb. 121). 



Personen 




A bbildung 121: Dreidimensionale Datenstruktur 

Diese Verallgemeinerung wird hier nurfilr 
dichotome Daten dargestellt. Fiir das 
Rasch-Modell zeigt sich dabei, dab es 
nicht nur eine Verallgemeinerung gibt, 
sondern je nach den getroffenen Annah- 
men ein System von 8 Testmodellen fiir 
dreifaktorielle Datenstrukturen resultiert. 
Dieses System wird im folgenden be- 
sclirieben, beginnend mit dem einfachsten 
und zugleich restriktivsten Modell. 



Personen und bei alien Items als gleich 
groB angenonmien wird. Man bezeichnet 
dieses Veranderungsmodell daher auch als 
das Modell globaler Veranderungen, weil 
die Veranderung weder spezifisch fiir ein- 
zelne Personen noch spezifisch fiir einzel- 
ne Items ist. 



( 1 ) P (x vit = l) 



exp(0 v + Oj + 8 t ) 

1 + exp(0 v + Oj + 8 t ) 



Aus Symmetriegriinden werden in diesem 
Unterkapitel alle Modellparameter mit 
einem Pluszeichen verkniipft. Es handelt 
sich bei 0 , sornit um die Itemleichtigkeit, 
statt -Schwierigkeit. Entsprechend be- 
schreibt der Zeitpunktparameter 8 t die 
Leichtigkeit des Tests zum Zeitpunkt t. 

Fiihrt man z.B. im Rahmen einer Studie 
zum Therapieverlauf in jeder Woche den- 
selben Test durch, so besclireibt 8 t die 
‘Leichtigkeit’ des Tests in der t-ten Thera- 
piewoche und kann als globales MaB fiir 
den Therapieverlauf bei alien Patienten 
interpretiert werden. 

Eine allgemeinere Bezeichnung des Mo- 
dells (1) lautet dreifaktorielle s Rasch- 
Modell, da es nicht auf Zeitpunkte als 
dritten Faktor beschrankt ist, sondern z.B. 
auch unterschiedliche Situationen als drit- 
ten EinfluBfaktor beriicksichtigen kann. 



Das Rasch-Modell laBt sich derart auf 3 
Faktoren erweitem, daB man neben der 
Personenfahigkeit und der Itemschwie- 
rigkeit einen dritten Parameter, den Zeit- 
punktejfekt 8 t (delta) einfiihrt. 

Der Zeitpunktparameter 8 t besclireibt den 
EinfluB des MeBzeitpunktes auf die Lo- 
sungswahrscheinlichkeit, der bei alien 



In Analogie zur Terminologie der Va- 
rianzanalyse kann man das Modell auch 
als Hauptejfektmodell bezeichnen. 



Analogic zur Varianzanalyse 

Die Analogie zur Varianzanalyse ergibt 
sich dadurch, daB man den Datenkubus 
(vgl. Abb. 121) als dreifaktoriellen Ver- 
suchsplan betrachtet mit den 3 unabhiin- 
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gigen Variablen: Personen, Items und 
Zeitpunkte. Da in deni Logit-Modell, in 
das sich Gleichung (1) umschreiben laBt 
(vgl. Kap. 3. 1.1. 2.2), 



p( x vit = i) _ 

(x vlt = o) v 



4- Gj + 8 t 



keinerlei Wechselwirkungen zwischen den 
drei Faktoren zugelassen sind, handelt es 
sich um ein Haupteffektmodell. 



Modell (1) stellt insofern die konsequen- 
teste Art einer dreifaktoriellen Verallge- 
meinerung des Rasch-Modells dar, als 
auch hier die verschiedenen Einfliisse auf 
das Antwortverhalten voneinander sepa- 
riert werden. Andererseits ist es auBerst 
restriktiv, da es annimnit, da 6 Verande- 
rung fur alle Personen und Items in glei- 
chem AusmaB stattfindet. 



Ninmit man demgegeniiber an, daB sich 
jede Person in unterschiedlichem AusmaB 
verandert, so benotigt man ein Modell, das 
eine Wechselwirkung zwischen Personen 
und Items zulaBt. Statt der beiden Haupt- 
effekt-Parameter 0 V und 8 t wird ein dop- 
pelt indizierter Parameter 8 vt eingefiihrt, so 
daB sich fur den Exponenten a vlt in der 

dreifaktoriellen logistischen Modellstruk- 
tur 



p(x vit = l) = 




Modell bildet personenspezifische Veran- 
derungen ab. 

In dem Beispiel einer Studie zum Thera- 
pieverlauf erhalt man fur jede Person in 
jeder Woche einen Eigenschaftsparameter, 
mit denen sich die individuellen Therapie- 
verlaufe darstellen lassen. 

Tm Hinblick auf die Schatzung seiner 
Parameter laBt sich dieses Modell auf das 
noimale zweifaktorielle Rasch-Modell re- 
duzieren, indem man die Personen zu 
jedem weiteren Zeitpunkt als virtuell neue 
Personen handhabt, d.h. die Datenmatri- 
zen untereinander anordnet. 

Items 
1.... k 

i p 
t=l ; 

N 

(virtuelle) 1 ^ ! 

Personen ^ 



N 



Abbildung 122: Datenorganisation fill' personen- 
spezifische Veranderungen 

Auf diese Weise wird ein Satz von 
Itemparametern geschatzt, der fUr alle 
Personen und alle Zeitpunkte gilt, jedoch 
wird fiir jede Person fur jeden Zeitpunkt 
ein neuer Eigenschaftsparameter geschatzt. 



die additive Zerlegung 

(2) a vit = 0i+8 vt 

ergibt. In diesem Modell beschreibt der 
Parameter 8 vt die Auspragung der Per- 
soneneigenschaft zum Zeitpunkt t. Das 



Damit entspricht dieses Modell personen- 
spezifischer Veranderung den Uberlegun- 
gen, die im vorangegangenen Kapitel iiber 
die klassischen Probleme der Verande- 
rungsmessung angestellt wurden. Insbe- 
sondere sind Differenzen der geschatzten 
S vt A.Parameter zwischen den Zeitpunkten 
relativ unrcliabel, negativ mit dem ersten 
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Zeitpunktparameter korreliert und nur 
valide interpretierbar, wenn tatsachlich die 
Itcmparamcter fiir alle echten und vir- 
tuellen Personengmppen konstant sind. 
Letzteres ist bei der Modellanwendung zu 
prlifen. 

Die ubrigen 6 Veranderungsmodelle erge- 
ben sich, wie Modell (2), durch Beriick- 
sichtigung verschiedener Wechselwirkun- 
gen zwischen je zwei der drei EinfluB- 
faktoren. 

Geht man davon aus, daB die Veranderung 
nicht personenspezifisch ist, aber die ein- 
zelnen Items in unterschiedlichem AusmaB 
von der Veranderung betroffen sind, so 
ergibt sich das folgende Verandemngs- 
modell 

(3) (X v j t — 0 V + CTj [ . 

Es enthalt mit dem Oj t Parameter einen 
Leichtigkeitsparameter fiir jedes Item zu 
jedem Zeitpunkt, ist also in der Lage, 
itemspezifische Veranderungen in Form 
von Differenzen dieser Parameter abzu- 
bilden. 

Bei einem Test zur Kontrolle des Thera- 
pieverlaufs konnte es sich z.B. urn einen 
Symptomfragebogen handeln, wobei sich 
die erfaBten Symptome wahrend der The- 
rapie in unterschiedlichem AusmaB veran- 
dern. Der Therapieverlauf kann dann mit- 
tels der Parameter a lt in Form von symp- 
tomspezifischen Veranderungsverlaufen 
dargestcllt werden. 

Auch dieses Modell laBt sich auf das 
nomiale zweifaktorielle Rasch-Modell re- 
duzieren, wenn man die Items zu jedem 
Testzeitpunkt als virtuell neue Items auf- 



faBt, d.h. die Datenmatrizen nebenein- 
ander schreibt. 

t=l t=2 t=3 

(virtuelle) Items 
1.... kl.... kl.... k 

1 

Personen 

N 



Abbildung 123: Datenorganisation fiir itemspezi- 
fische Veranderungen 

Jede Veranderung wird hier durch eine 
Veranderung der Itemleichtigkeiten erfaBt, 
und die Personeneigenschaften bleiben 
konstant iiber alle Zeitpunkte. 

Das dritte Modell mit einem Wechselwir- 
kungsparameter ist das folgende: 

(4) oc v j ( — 0 v j + 8^ , 

in dem die Veranderung mit dem Para- 
meter 8 t global erfaBt wird, aber eine 
Wechselwirkung zwischen Personen und 
Items erlaubt ist. In diesem Modell wird 
das Grundprinzip von Rasch-Modellen 
aufgegeben, namlich die Personenein- 
fliisse von den Itemeinfliissen zu se- 
parieren. Es stellt somit keine Anforde- 
rungen an die Homogenitdt des Itemma- 
terials, setzt aber voraus, daB sich die Ver- 
anderungen gleichmaBig auf jede Person x 
Item-Kombination auswirken. 

Dieses Modell ist praktisch nur an- 
wendbar, wenn man auf die Schatzung der 
Wechselwirkungsparameter 0 v j verzichtet. 
Das bedeutet, sie werden bei der Pa- 
rameterschatzung der 8 t Parameter durch 
ihre erschopfenden Statistiken ersetzt (vgl. 
Kap. 3.1. 1.2.2). Die Grundstruktur dieses 
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Modells liegt deni sogenannten linear- 
logistischen Testmodell niit abgeschwach- 
ten Annahmen (LLRA wie relaxed 
assumptions) zugrunde, das in Kapitel 
3.5.4 ausfiihrlicher behandelt wird. 

In dem Beispiel der Therapiestudie wiirde 
Modell (4) es ermoglichen, den globalen 
Therapieeffekt von Woche zu Woche zu 
quantifizieren, auch wenn der eingesetzte 
Fragebogen gar nicht homogen im Sinne 
des Rasch-Modells ist. Das heibt, bei den 
Patienten kann das Muster der Symptome 
sehr unterschiedlich sein, so dab es keine 
konstanten Itemschwierigkeiten fiir alle 
Personen gibt. Das Modell (4) ermoglicht 
trotzdem eine Quantifizierung des Thera- 
pieverlaufs, sofern sich die Mabnahmen 
auf alle Personen und alle Symptome glei- 
chermaben auswirken. 

Neben diesen drei Modellen mit jeweils 
einer Wechselwirkung zwischen zwei 
Faktoren gibt es auf der nachsten Ver- 
allgemeinerungsstufe drei Modelle mit je 
zwei Wechselwirkungsparametern. Das 
erste dieser Modelle realisiert eine Kom- 
bination von itemspezifischen und per- 
sonenspezifischen V eranderungen : 



Da im Vergleich zum noimalen Rasch- 
Modell sowohl Itcniparamcter wie Per- 
sonenparamcter einen zweiten Index, t, 
haben, erhalt man die Parameter dieses 
Modells, indem man fiir jeden Zeitpunkt 
getrennt die Parameter des normalen 
Rasch-Modells schatzt: Alle Personen 
haben zu jedem neuen Zeitpunkt andere 
Fahigkeiten und stellen daher virtuell neue 
Personen dar. Ebenso haben alle Items zu 
jedem Zeitpunkt andere Leichtigkeiten 
und stellen somit virtuell neue Items dar. 



(virtuelle) Items 
t=l 

1 k 



(virtuelle) 

Personen 
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A bbildung 124: Datenorganisation fiir item- und 
personenspezifische V eranderungen 



(5) O^vit — ®it 4 8yt - 

Angewendet auf das Therapie-Beispiel be- 
sagt dieses Modell, dab die Therapie- 
erfolge symptomspezifisch sind, wobei 
sich der symptomspezifische Verlauf fiir 
die a it -Parameter darstellen labt. Zudem 
gibt es aber auch individuelle Unterschie- 
de im Therapieerfolg, was in den Verlau- 
fen der Eigenschaftsparameter 8 vt zum 
Ausdruck kommt. Insgesamt gesehen, ist 
es ein sehr wenig restriktives Modell, das 
aber fragwurdig in seiner Anwendung ist. 



Es gibt bei dieser Datenstruktur keinen 
Zusammenhang mein - zwischen den Zeit- 
punkten und damit auch kein Gesamt- 
modell mein - fiir die gesamte Datenstmk- 
tur. Insbesondere ist das Validitdtspro- 
blem, d.h. die Frage, ob zu jedem Zeit- 
punkt noch dasselbe gemessen wird, bei 
diesem Modell nicht mehr losbar. Jedoch 
ist das Modell anwendbar, da seine 
Parameter geschatzt werden konnen. 

Schwieriger sieht es bei den beiden ande- 
ren Modellen mit doppelter Wechselwir- 
kung aus. Nimmt man sowohl eine Wech- 
selwirkung von Personen und Items als 
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auch von Personen und Zeitpunkten an, so 
ergibt sich das Modell: 

(6) a vit =6 vi + 8 vt . 

Hier sieht man allein schon an der Anzahl 
der zu schatzenden Parameter, daB das 
Modell praktisch nicht anwendbar ist: Jede 
Person erhalt hier so viele Eigenschafts- 
parameter wie es Items und Zeitpunkte 
gibt. 

Etwas weniger Parameter enthalt das dritte 
Modell auf dieser Verallgemeinerungs- 
stufe: 

(7) a vit = 9 vi + a it . 

Es bildet mit dem Parameter o it item- 
spezifische Veranderungen ab und gibt 
gleichzeitig die Annahme der Itemhomo- 
genitat fur alle Personen auf, da es einen 
Wechselwirkungsparameter zwischen Per- 
sonen und Items enthalt. In diesem Modell 
gibt es praktisch keinen Zusammenhang 
zwischen den Items mein - : sowohl die Per- 
soneneigenschaften als auch die Veran- 
derungen sind itemspezifisch. Als Konse- 
quenz lassen sich die Parameter dieses 
Modells schatzen, indem man fiir jedes 
Item getrennt eine Personen x Zeitpunkte 
Matrix aufstellt und darauf das normale 
zweifaktorielle Rasch-Modell anwendet: 

i=l i=2 i=3 

t= 1 T 1 T 1 T 




A bbildung 125: Datenorganisation fiir Modell (7) 

Die Itemparameter entsprechen dabei den 
Zeitpunktparametern des Modells (7). 
Auch wenn bei diesem Modell jedes ein- 



zelne Item wie ein eigener Test behandelt 
wird, hat das Modell interessante Anwen- 
dungsfelder. Irn Beispiel der Therapie- 
studie be sc h re i ben die c it -Parameter den 
‘globalen’, d.h. fiir alle Patienten gleichen 
Verlauf der Veranderungen jedes einzel- 
nen Symptoms. Die Auspragung des 
Symptoms kann dabei fiir jede Person 
unterschiedlich sein. 

Als achtes Modell in dieser Systematik 
ergibt sich ein Modell mit drei Wechsel- 
wirkungsparametern : 

(8) ®vit = ®vi ®it T ^vt- 

Wie bereits Modell (6), so ist auch dieses 
Modell praktisch nicht anwendbar und 
vervollstandigt lediglich das System, wel- 
ches in Abbildung 126 dargestellt ist. 




A bbi Idling 126: Das System der 8 dreifaktoriellen 
Veranderungsmodelle 

Die Abbildung zeigt die vier Ebenen der 
Verallgemeinerung und verbindet solche 
Modelle miteinander, von denen das dar- 
unter stehende ein Spezialfall des dariiber 
liegenden ist. Solche Relationen sind 
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wichtig, wenn man Modellgeltungskon- 
trollcn vornehmen will, in denen ein spe- 
zifischeres Modell gegen ein allgemeine- 
res getestet wird (s.U. Kap. 5.). 

Dieses System laBt sich auch fiir ordinale 
Rasch-Modelle verallgemeinem, was hier 
jedoch nicht nachvollzogen werden soli. 

Fiir Testmodelle mit kategorialer Per- 
sonenvariable, also fiir qualitative Testmo- 
delle reduziert sich dieses System auf 
lediglich drei unterschiedliche Modelle, da 
Wechselwirkungen zwischen Personen 
und Items bei latent-class Modellen ohne- 
dies enthalten sind (alle Items haben fiir 
jeden Wert der Personenvariable unter- 
schiedliche Leichtigkeiten). Es entfallen 
somit die Modelle 4, 6, 7 und 8. 

Auch das restriktivste Modell (1) mit glo- 
baier Veranderung ist nicht auf qualitative 
Testmodelle iibertragbar: Da bei diesen 
Modellen die Items einen quantitativen 
Parameter haben, die Personen aber einen 
kategorialen, kann globales Lernen nicht 
als fiir alle Personen konstante Ver- 
anderung definiert werden. 

Hingegen sind die Konzepte von item- 
spezifischer Veranderung und perso- 
nenspezifischer Veranderung sehr wohl 
auf qualitative Testmodelle iibertragbar. 
Das Analogon zu Modell (3) mit item- 
spezifischer Veranderung bedeutet, daB 
sich die klassenspezifischen Itemlosungs- 
wahrscheinlichkeiten von Zeitpunkt zu 
Zeitpunkt verandern, wahrend die Per- 
sonenvariable, also die Klassenzugehorig- 
keit, konstant bleibt. Daraus ergibt sich 
das Klassenmodell 

t \ G 

(9) P(Xvit = lj = ^ ttg ttjgt ■ 
g=l 



Die Parameter dieses Modells konnen 
wiederum dadurch geschatzt werden, daB 
die Datenmatrizen nebeneinander gestellt 
werden und die Items zu jedem neuen 
Testzeitpunkt als virtuell neue Items be- 
handelt werden (s. Abb. 123). Die ermit- 
telte Klasseneinteilung gilt dann fiir alle 
Items und Testzeitpunkte, d.h. die Per- 
sonen wechseln nicht die Klassenzuge- 
horigkeit von Zeitpunkt zu Zeitpunkt. Ver- 
anderung bedeutet in diesem Modell, daB 
sich innerhalb der Klassen die Losungs- 
wahrscheinlichkeiten andern. 

Demgegeniiber laBt sich personenspezifi- 
sche Veranderung in Klassenmodellen als 
Klassenwechsel beschreiben, wobei die 
Ldsungswalirschcinlichkeiten innerhalb 
der Klassen iiber die Zeitpunkte hinweg 
konstant bleiben: 

(10) p(x vit = l)= £ 7t gt 7t ig . 

g=l 

Der Parameter 7t gt bezeichnet hier die 
GroBe der Klasse g zum Zeitpunkt t. 

Die Parameter dieses Modells lassen sich 
dadurch schatzen, daB man die Daten- 
matrizen untereinander schreibt, d.h. die 
Personen zu jedem neuen Zeitpunkt als 
virtuell neue Personen behandelt (vgl. 
Abb. 122). Damit werden die klassen- 
spezifischen Losungswahrscheinlichkeiten 
iiber alle Zeitpunkte konstant gehalten, 
wahrend sich Veranderung irn Klassen- 
wechsel ausdriickt. 

Auf diese Weise erhalt man nur die iiber 
alle Zeitpunkte gemittelten Klassen- 
groBenparameter 7t g . Wie groB die Klassen 
zu jedem Zeitpunkt sind, 7t gt , laBt sich 
iiber die individuellen Zuordnungswahr- 
scheinlichkeiten berechnen. 
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Das Analogon zu Modell (5) mit itemspe- 
zifischen und personenspezifischen Veran- 
derungen entspricht wiederum der ge- 
trennten Anwendung der latent-class 
Analyse auf jeden Testzeitpunkt. Die 
Validitdtsproblematik ist auch hier nicht 
gelost, da sich zu jedem Testzeitpunkt 
nicht nur neue Klassenzugehorigkeiten der 
Personen ergeben, sondern auch qualitativ 
andere Klassen. 

Die Verallgemeinerung von kategorialen 
und quantitativen Testmodellen auf die 
dreifaktorielle Datenstmktur der Verande- 
rangsmessung ist somit prinzipiell mog- 
lich. Sie fiihrt bei quantitativen Modellen 
zu einem System von 8, bei kategorialen 
Modellen lediglich zu 3 Veranderungsmo- 
dellen. Bei den meisten Modellen ist die 
Parameterschatzung durch eine entspre- 
chende Reorganisation des Datenkubus zu 
einer Datenmatrix moglich. 



U bungsaufgaben 

1. Sie lassen von 50 Personen iiber 2 Mo- 
nate hinweg taglich die allgemeine 
Lebenszufriedenheit hinsichtlich der 3 
Bereiche ‘Bemf, ‘Freizeit’ und ‘Part- 
nerschaft’ auf einer 2-stufigen Skala 
(hoch-niedrig) beurteilen. Um den ‘Wo- 
chenendeffekt’ zu untersuchen, wenden 
Sie Modell (7) an. Wieviele Parameter 
miissen Sie schatzen? 

2. Wir wiirden Sie die Daten aus Aufgabe 

1 mit einem Klassenmodell auswerten? 



Literatur 

Das System der 8 quantitativen Veran- 
derungsmodelle wurde von Rost & Spada 
(1983) beschrieben. Das dreifaktorielle 
Rasch-Modell (1) ist von Micko (1970) 
und Fischer (1974) behandelt worden. Das 
personenspezifische Modell (2) diskutiert 
Embretson (1991) und Modell (4) ist ein 
Spezialfall des LLRA von Fischer (1989, 
Fischer & Formann 1982b). Rost (1989) 
geht auf die Ubertragung des Konzeptes 
item- und personenspezifischer Lemeffek- 
te auf Klassenmodelle ein. Meiser et al. 
( 1995) verglichen Veranderungsmodelle 
mit quantitativer und kategorialer latenter 
Variable 
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3.5.3 Dynamische Modelle: 
Lernen wahrend der Testbear- 
beitung 

Eine ganz andere Sichtweise der Ver- 
allgemeinerung von Testmodellen in Rich- 
tung auf Veranderungsmessung stellt die 
Beriicksichtigung von Veranderungen oder 
Lemen wahrend der Testbearbeitung dar. 
Hier wird nicht die Datenstruktur auf 
einen dreidimensionalen Kubus erweitert, 
sondern Veranderung oder Lemen findet 
zwischen den Items, sozusagen von Item 
zu Item statt. Die Konstanz der Personen- 
eigenschaft wahrend des ganzen Tests 
wird nicht mehr vorausgesetzt, weshalb 
solche Modelle dynamische Modelle 
heiben. 

Auch diese Lernprozesse konnen itemspe- 
zifisch, personenspezifisch oder global 
konzipiert werden (s. vorangehendes Ka- 
pitel). Daran orientiert sich auch die 
Einteilung der folgenden Unterkapitel. In 
ihnen werden ausschlieJUich quantitative 
Testmodelle behandelt, da die Verande- 
rung einer kategorialen Pcrsonenvariable 
von Item zu Item schwierig zu realisieren 
und zu interpretieren ist. 

3.5.3.1 Personenspezifisches Ler- 
nen 

Die Konzeption des hier vorgestellten 
Modells geht auf die Idee sogenannter 
Lemtests zuriick. In Lerntests wird ver- 
sucht, die Veranderung der Personenfahig- 
keit wahrend der Testbearbeitung als 
Indikator fur die individuelle Lernfdhigkeit 
zu messen. Dies setzt natiirlich voraus, 
dab der Lerngewinn von Item zu Item 
personenspezifisch parametrisiert wird. 
Das bedeutet, dab neben dem Fahigkeits- 
parameter ein zweiter Personenparameter 



einzufuhren ist, der das Ausmab des 
Lerngewinns durch die Bearbeitung eines 
Items ausdriickt. 



Bei spiel 

In einem Test, der aus 10 Items besteht, 
haben zwei Personen A und B die fol- 
genden Antwortvektoren: 

A: (0110110100) 

B: (0000011111) 

Beide Personen haben insgesamt 5 Items 
gelost, also auch dieselbe Fahigkeits- 
auspragung. Die Lernfdhigkeit beider Per- 
sonen unterscheidet sich jedoch, denn 
offensichtlich hat Person B am Anfang 
sehr grobe Schwierigkeiten mit der Lo- 
sung der Items gehabt, dann aber dazuge- 
lernt und die restlichen 5 Items mit holier 
Losungswahrscheinlichkeit bearbeitet. 

Genau diesen Sachverhalt soli ein zweiter 
Personenparameter 5 V abbilden, der umso 
holier sein soil, je mein- Items gegen Ende 
des Tests im Vergleich zum Testbeginn 
gelost werden. 



In dem folgenden Testmodell ist diese 
Idee eines Lernfahigkeitsparameters reali- 
siert: 



(1) P (x vi =l) = 



exp(9 v -g, +(i-l)S v ) 
l + exp(0 v -gj +(i — 1)S V ) ' 



Der Lernfahigkeitsparameter 5 V tragt zur 
Losung des ersten Items gar nichts bei 
(i-1 = 0), wahrend er zur Losung des 
zehnten Items mit dem Faktor 9 beitragt. 
Der Parameter 8 V bewirkt, dab die 
Losungswahrscheinlichkeit von Item zu 
Item um einen konstanten Betrag erholit 
wird, sofem er positiv ist. Ist er negativ, 
verringert er die Losungswahrscheinlich- 
keiten von Item zu Item, man konnte ihn 
z.B. als Ermudungsparameter interpretie- 
ren. 
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Der ‘Bonus' 8 V , der der Personenfahigkeit 
0 V zugeschlagen wird, richtet sich allein 
nach der Position des Items i, welche in 
der hier benutzten Notation seiner Item- 
numnter entspricht. Der Lemparameter 8 V 
erfaBt also personenspeziftsches Lemen, 
ist aber nicht itemspezifisch, da der Betrag 
des Lemeffektes unabhangig vom jewei- 
ligen Item ist. 

Aufgrund seines Koeffizienten (i-1) 
driickt der Parameter 5 V nicht den Lem- 
gewinn infolge der Bearbeitung des gan- 
zen Tests sondern nur eines einzelnen 
Items aus. Dieser Lemgewinn ist zudem 
unabhangig davon, ob ein Item gelost 
wurde oder nicht. Die Lernvorgange, die 
mit diesem Modell erfaBt werden, sind 
daher nicht reaktionskontingent, d.h. von 
den Reaktionen der Personen abhangig, 
sondern nur von der Anzahl bearbeiteter 
Items (vgl. Kap. 3. 5. 3. 3). 

Wie auf alle Modelle mit personen- 
speziftschem Lernen treffen auch hier die 
Probleme der Veranderungsmessung - 
wenn auch in abgewandelter Form - zu. 
Die Mefigenauigkeit beider Personen- 
parameter ist geringer, und der MeBfehler 
beider Parameterschatzungen ist korreliert, 
was auch zu einer Beeinflussung der 
Korrelation beider Parameterschatzungen 
fiihrt. Auch die Validitatsfrage stellt sich 
hier, denn ein Test rniBt bei einer Person, 
die wahrend der Bearbeitung nichts dazu- 
lernt, nicht unbedingt dasselbe wie bei 
einer Person, die wahrend der Testbe- 
arbeitung sehr viel dazulernt. 

Insbesondere aus Grunden der MeB- 
genauigkeit haben Klauer und Sydow 
(1992) darauf verzichtet, die beiden Perso- 
nenparameter einzeln zu schatzen. Sie 
haben vielmchr mit Hilfe einer Vertei- 
lungsannahme beziiglich beider Personen- 
variablen versucht, die Korrelation der 



Statusfdhigkeit 0 V und der Lernfdhigkeit 
8 V meBfehlerbereinigt zu schatzen. 

Konkret sieht das so aus, daB die An- 
nahme einer bivariaten Normalverteilung 
von 0 und 8 getroffen wird, und anstelle 
der einzelnen Personenparameter die 5 
Parameter dieser bivariaten Normalver- 
teilung geschatzt werden. 

Die bivariate Normalverteilung 

Die bivariate Normalverteilung ist die 
zweidimensionale Verallgemeinerung der 
Gauss’ schen Glockenkurve (vgl. Abb. 3). 
Ihr Funktionsgraph sieht wie ein ein- 
giptliger Berg aus: 




3 -3 



Abbildung 127: Die bivariate Normalverteilung 

Die 5 Parameter der bivariaten Normal- 
verteilung sind die Mittelwerte und 
Standardabweichungen der beiden univa- 
riaten Verteilungen (hier: von 0 und 8) 
sowie die Korrelation beider Variablen. 
dieser Korrelationsparameter sagt etwas 
iiber die Frage aus, wie hoch Lernfahigkeit 
und Statusfahigkeit miteinander korreliert 
sind, und zwar unabhangig von dem ver- 
zerrenden EinfluB des MeBfehlers einzel- 
ner Personenparameter. 
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Die Schatzung der Korrelation von Status- 
und Lernfahigkeit mittels einer bivariaten 
Verteilungsannahme stellt einen sclir ele- 
ganten Weg dar, die Problematik der mefi- 
fehlerbedingten Korreliertheit beider 
MaBe zu umgehen (vgl. Kap. 3. 5. 1.2). 

Bei der Anwendung dieses Testmodells ist 
darauf zu achten, dab wahrend der Test- 
bearbeitung auch MaBnahmen getroffen 
werden, die tatsachlich eine Steigerung 
der Fahigkeit erwarten lassen. Ein Bei- 
spiel hierfiir ist die Riickmeldung iiber die 
Richtigkeit der Losung nach jedem Item 
oder gar die Angabe des richtigen Lo- 
sungsweges. 



3 . 53.2 Itemspezifisches Lernen 

Im Unterschied zum vorangehenden Kapi- 
tel wird hier nicht angenommen, daB die 
Personen iiber unterschiedliche Lern- 
fahigkeiten verfugen, sondern daB von den 
Items ein unterschiedlicher Lerneffekt 
ausgeht bzw. sich ein Lerneffekt bei den 
Items in unterschiedlicher Weise mani- 
festiert: Der Lerneffekt ist abhangig da- 
von, welches Item bearbeitet wird, und er 
erhoht nicht die Losungswahrscheinlich- 
keit fur jedes andere Item gleichermaBen. 



Diese Art von Lemen laBt sich mit Hilfe 
des linear-logistischen Testmodells (S.O. 
3.4.1) abbilden, da sich die Lemeffekte als 
eine lineare Verschiebung der Schwierig- 
keiten bestimmter Items ausdrucken las- 
sen. Die Modellgleichung des LLTM lau- 
tet (vgl. Kap. 3.4.1): 



exp 



( 1 ) P (x vi =l) = - 



9 V - X % B| 



j=l 



1 + exp 



e v -I iij hj - < 

j=i 



Um daraus ein Veranderungsmodell mit 
itemspezifischen Lemeffekten zu machen, 
muB in der Q-Matrix spezifiziert werden, 
welcher Lerneffekt von welchem Item 
ausgeht und auf welches Item wirkt. 



Beispiel 

Die folgende Q-Matrix beschreibt einen 
Test, der 7 Items umfaBt (= Anzahl der 
Zeilen), und in dem zwei unterschied- 
liche Lemeffekte wirksam werden: 





Komponenten 
1 2 3 4 5 6 7 


j= 

8 


9 


1 


1 


0 


0 


2 


1 


-1 


0 


3 


1 


-1 


-1 


Items 4 


1 


-1 


0 


i= 5 


1 


-2 


-2 


6 


1 


-2 


0 


7 


1 


-3 


-3 



Die ersten sieben Spalten dieser Q- 
Matrix drucken aus, daB die Itempara- 
meter der 7 Items unbekannt sind, d.h. es 
wird fur jedes Item ein eigener Basispa- 
rameter r|j geschatzt. 

In der achten Spalte ist ein Parameter fur 
den Lerneffekt spezifiziert, der von Item 
1, 4 und 6 ausgeht und jeweils auf alle 
nachfolgenden Items wirkt. Die q-Ge- 
wichte haben ein negatives Vorzeichen. 
da der zugehorige Basisparameter die 
Atemschwierigkeiten verringern, also die 
Losungswahrscheinlichkeiten erhohen 
soil (die Basispai'ameter gehen in Lormel 
(1) als Subtrahend ein). Spalte 8 
beschreibt also einen itemspezifischer 
Lerneffekt, der nur von bestimmter 
Items ausgelost wird, aber auf alle 
nachfolgenden wirkt. 
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Demgegeniiber spezifiziert die neunte 
Spalte einen Parameter, bei deni ein 
Lemeffekt nur von den ungeraden Items 
ausgeht und jeweils auch nur auf die 
ungeraden Items, also das 3., 5. und 7. 
Item wirkt. Alle geradzahligen Items 
sind von diesem Lerneffekt unberiihrt. 



Dieses Beispiel illustriert, wie man nrit 
Hilfe des LLTM Annahmen iiber itemspe- 
zifisches Lemen wahrend der Testbear- 
beitung als praexperimentelle Hypothese 
formalisieren kann. Die Starke dieses 
Lerneffektes wird in Foim eines Basis- 
parameters geschatzt. 

Das obige Beispiel hat jedoch einen 
Haken, denn die Q-Matrix im LLTM darf 
keine linear abhangigen Spaltenvektoren 
enthalten (vgl. Kap. 3.4.1). Es stellt eine 
mathematische GesetzmaBigkeit dar, dal) 
in einer Matrix nur dann alle Spalten 
lineal - unabhangig sein konnen, wenn es 
mehr Zeilen als Spalten gibt. Das 
wiederum bedeutet, daB die Einfiiln'ung 
von itemspezifischen Lerneffektparame- 
tem nur moglich ist, wenn man zugleich 
die Itemparameter auf eine geringere An- 
zahl von Itemkomponenten zuriickfuhrt, 
wie es in Kapitel 3.4.1 dargestellt ist. 

Dieses Erfordemis hort sich gravierender 
an als es ist: wenn man schon itemspezi- 
fische Lerneffekthypothesen hat, so be- 
ruhen diese oft auf bestimmten Struk- 
turannahmen beziiglich der Items dieses 
Tests. Der Schritt, aus diesen strukturellen 
Annahmen auch Itemkomponenten abzu- 
leiten, ist dann nicht mehr groB. Diese 
Itemkomponenten sind anstelle der Item- 
Parameter in der Q-Matrix zu spezifi- 
zieren. 



Beispiel 

Das obige Beispiel kann dahingehend er- 
ganzt werden, daB im Losungsweg der 
Items 1, 4 und 6 eine Denkoperation ent- 
halten ist, deren Ausfiiln'ung die Gmnd- 
schwierigkeit der Items 2 bis 7 verrin- 
gert. Alle Items mit ungerader Numnrer 
erfordern eine zweite Denkoperation, 
deren Ausfiihrung nur einen Lemeffekt 
auf die Schwierigkeit derselben Denk- 
operation hat. Aus diesen Annahmen 
resultiert die Q-Matrix: 

j = 





1 


2 


3 


4 


5 


1 


0 


1 


1 


0 


0 


2 


1 


0 


0 


-1 


0 


3 


1 


0 


1 


-1 


-1 


4 


1 


1 


0 


-1 


0 


5 


1 


0 


1 


-2 


-2 


6 


1 


1 


0 


-2 


0 


7 


1 


0 


1 


-3 


-3 



Danach bezeichnet der Basisparameter 

tljfiir j= 

1: die Grundschwierigkeit der Items 2 
bis 7 

2: die Schwierigkeit der ersten Denk- 
operation 

3: die Schwierigkeit der zweiten Denk- 
operation 

4: den Lemeffekt der ersten Denkope- 
ration 

5: den Lerneffekt der zweiten Denkope- 
ration. 



Auch wenn dieses Beispiel ohne eine 
inhaltliche Benennung von Denkopera- 
tionen konstruiert wurde, macht es die 
Idee deutlich, itemspezifische Lemeffekte 
wahrend der Testbearbeitung mit der 
Komponentenzerlegung von Itemschwie- 
rigkeiten (Kap. 3.4.1) zu verbinden. Man 
kann in diesenr Fall statt von itemspe- 
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zifischen Lerneffekten auch von opera- personenunspezifisch, d.h. er gilt fiir alle 
tionsspezifischen Lerneffekten sprechen. Personen gleichermaBen. 



3.5.3.3 Globales reaktionskontin- 
gentes Lernen 

In beiden vorangehenden Unterkapiteln 
sind die Lemeffekte unabhangig davon, ob 
eine Person ein Item tatsachlich gelost hat 
oder nicht. Das Lernen findet in diesem 
Fall reaktionsinkontingent statt, d.h. unab- 
hangig vom tatsachlichen Verhalten in 
diesem Test. 

In den meisten Lerntheorien geht man 
dagegen davon aus, daB Lemen in Ab- 
hdngigkeit vom tatsachlichen bisherigen 
Verhalten stattfindet, d.h. daB ein Lern- 
effekt anders ausfallt, wenn man ein Item 
gelost hat, als wenn man es nicht gelost 
hat. 

Generell sind beicle Richtungen denkbar, 
namlich daB man nur dann lernt, wenn 
man ein Item gelost hat, weil man ein 
‘reinforcement’ (dt. eine Verstarkung) 
aufgrund der gelungenen Losung erhalt. 
Es ist aber auch denkbar, daB man ein 
Lerneffekt nur bei nicht-gelosten Aufga- 
ben erzielt, denn nur bei solchen gibt es 
noch etwas zu lernen, z.B. durch die nach- 
tragliche Mitteilung des korrekten Lo- 
sungsweges. Wie dem auch sei, Lemen 
findet oft reaktionskontingent statt, d.h. in 
Abhangigkeit davon, ob ein Item gelost 
wird oder nicht. 

In diesem Kapitel geht es um ein Test- 
modell, das reaktionskontingentes Lernen 
als globales Lernen erfaBt. Dieser Lern- 
effekt ist itemunspezifisch, da er nicht 
davon abhangt, welche Items gelost wur- 
den, sondem nur wie viele. Zudern ist er 



Ein historischer Exkurs 



Historisch gehen die Uberlegungen zu 
einem solchen Modell auf Arbeiten vor 
Kempf (1974) zuriick, der folgende Mo- 
dellgleichung als Ansatz fiir ein dynami- 
ches Modell mit reaktionskontingenten 
Lemen untersuchte 



(1) p(x vi = i) 



£v+Vr 
+ e i 



mit £ v = exp(0 v ) und £;=exp(Gj). 



In dieser Gleichung bezeichnet £ v (ksi) 
einen (delogarithmierten) Personenpara- 
meter, gj (epsilon) einen (delogarithmier- 
ten) Itemparameter und \p r den Lerneffekt 
er damit verbunden ist, bei den voran- 
gegangenen Items genau r-mal eine rich- 
tige Losung erzielt zu haben. 

Diese Gleichung sieht zunachst gar nicht 
ach einem verallgemeinerten Rasch. 
Modell aus, ist es aber. Um dies zu ver- 
stehen, muB man eine Umformung des 
Rasch-Modells zu Hilfe nehmen, in den 
ie exponentiellen Parameter 0 V und G 
durch multiplicative Parameter und £ 
ersetzt werden. Aus der Transformation 

=exp(0 v )und £; = exp(a;) 

ergibt sich nach Einsetzen in die Glei- 
chung des Rasch-Modells (s. Kap 
3.1. 1.2.2) die multiplikative Version des 
Rasch-Modells: 



(2) p(x v j = l) = 



$v 



1 

Ei 



1 +^v ' 



Ei 
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Multipliziert man Zahler und Nenner mit 
Ej, so ergibt sich das nur scheinbar 
additive, aber in Wirklichkeit immer noch 
multiplikative Rasch-Modell: 

(3) P (x vi =l) = -^-. 

Die Idee des dynamischen Testmodells 
von Kempf bestand darin, in der gleichen 
Weise wie im Nenner Personenfahigkeit 
mit Itemschwierigkeit verkniipft ist, im 
Zahler die Personenfahigkeit mit einem 
‘Bonus’ zu verkniipfen, der den Lerneffekt 
infolge von r richtigen Itemlosungen im 
bisherigen Test ausdriickt, siehe Glei- 
chung (1). 

Dieses Modell erwies sich als schwer 
praktikabel, d.h. die Parameter waren 
schwer zu schatzen, und es gab auch 
Interpretationsprobleme . 



Dieselbe Idee eines reaktionskontingenten 
dynamischen Lernmodells ist jedoch in 
der iiblichen exponentiell additiven Form 
im folgenden Modell realisiert, das von 
Verhelst und Glas (1993) publiziert 
wurde: 

/4 , ( v G exp(e v -CTi+P ri ) 

( 4 ) PV X vi ~ 0 TZ 7 V- 

1 + exp(0 v - Oj + (3 ri J 

In diesem Modell driickt [3 n den Lerneffekt 
aus, den man aufgrund von r richtigen 
Beantwortungen vor Item i erzielt. Wie- 
derum stellt (3 ri eine Art Bonus dar, der die 
Personenfahigkeit 0 V in Abhangigkeit von 
der Anzahl bisheriger richtiger Losungen 
erhoht. Dieser Effekt ist nicht personen- 
spezifisch und nur insofem itemspezifisch, 
als die Auswirkung auf das nachfolgende 
Item fur jedes Item unterschiedlich sein 
kann. 



Das schwierige Problem der Parame- 
terschatzung, das bei der erstgenannten 
Version nicht befriedigend losbar war, hat 
in diesem Modellansatz eine uberraschend 
einfache Losung. Mit Hilfe von virtuellen 
Items lassen sich die Parameter dieses 
Modells namlich im Rahmen des linear- 
logistischen Testmodells (LLTM, s. Kap. 
3.4.1) berechnen. Wie diese virtuellen 
Items zu konstruieren sind, zeigt das 
folgende Beispiel. 



Bei spiel 

In dem Beispiel sind 3 reale Items darge- 
stellt, die insgesamt 8 unterschiedliche 
Antwortpattern erzeugen konnen. Jede 
Person weist eines dieser 8 Antwort- 
pattern auf. Nun werden statt der 3 
tatsachlichen Items 6 virtuelle Items 
gebildet, die in folgender Tabelle wie- 
dergegeben sind. 



reale 

Items 

1 2 3 


( 1 , 0 ) 


virtuelle Items 

( 2 , 0 ) ( 2 , 1 ) ( 3 , 0 ) ( 3 , 1 ) 


( 3 , 2 ) 


1 1 1 


1 


* 


1 


* 


* 


1 


1 1 0 


1 


* 


1 


* 


* 


0 


1 0 1 


1 


* 


0 


* 


1 


* 


1 0 0 


1 


* 


0 


* 


0 


* 


0 1 1 


0 


1 


* 


* 


1 


* 


0 1 0 


0 


1 


* 


* 


0 


* 


0 0 1 


0 


0 


* 


1 


* 


* 


0 0 0 


0 


0 


* 


0 


* 


* 



Die erste dieser sechs Spalten ist iden- 
tisch zum realen Item 1, d.h. eine Person 
bekommt immer dann eine 1, wenn sie 
das erste Item tatsachlich gelost hat. Hier 
konnte noch kein Lernen stattfinden. 

Das zweite Item wird in zwei virtuelle 
Items transformiert. So bekommt jede 
Person in der zweiten Spalte eine 1, 
wenn sie das zweite reale Item tat- 
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sachlich gelost hat und zuvor 0 richtige 
Losungen aufwies. Sie bekommt eine 0, 
wenn sie das zweite Item nicht gelost hat 
und zuvor 0 richtige Losungen aufwies. 
In alien anderen Fallen bekommt sie 
Sternchen. 

Sternchen werden wie 'missing-data’ (dt. 
fehlende Daten) behandelt, d.h. Perso- 
nen, die das erste Item gelost haben, 
haben das zweite virtuelle Item gar nicht 
bearbeitet. 

Analog sind die weiteren vier Spalten 
konstruiert, so daB die virtuellen Items 
die Losungen der realen Items wider- 
spiegeln, jedoch unter der Bedingung 
einer bestimmten Anzahl vorher geloster 
Aufgaben. 

Fur die so definierten sechs virtuellen 
Items erhalt man Parameterschdtzungen, 
die die Schwierigkeit dieses Items aus- 
driicken - jeweils differenziert nach der 
Anzahl vorher geloster Items. 1st das dritte 
virtuelle Item z.B. urn 0.5 Einheiten leich- 
ter als das zweite virtuelle Item, so driickt 
dieser Wert 0.5 den Lerngewinn einer 
richtigen Losung des ersten Items aus. 

Einerseits handelt es sich hierbei urn item- 
spezifisches Lernen, denn der Effekt einer 
bestimmten Anzahl richtiger Losungen 
wird getrennt fur jedes Item parametrisiert. 
Andererseits ist der Effekt auch item- 
unspezifisch, denn fur die GroBe des Lern- 
effekts spielt es keine Rolle, welche Items 
zuvor gelost wurden. 

Um dieses Modell auf Daten anwenden zu 
konnen, bedarf es der Transformation der 
realen Items in virtuelle Items und eines 
Computerprogramms, das mit sogenann- 
ten missing-data umgehen kann. Da dies 
in der allgemeinen Version des linear- 



logistischen Testmodells (LLTM) vorge- 
sehen ist, stellt Modell (4) einen Spe- 
zialfall des LLTM dar. Auf die Eigenschaft 
des LLTM, mit unvollstandigen Datenma- 
trizen umgehen zu konnen, wird im fol- 
genden Kapitel eingegangen. 



Literatur 

das Konzept von Lerntests diskutieren 
Guthke et al. (1990), Klauer & Sydow 
1992) haben das personenspezifische 
Lernmodell dargestellt und Klauer et al. 
(1994) beschreiben eine experimentelle 
Anwendung dieses Modells. Beispiele fur 
die Messung von item- und operations- 
spezifischen Lemeffekten finden sich in 
Spada (1976) und Spada & McGaw 
(1983). Kempf (1974) diskutiert das Kon- 
zept reaktionskontingenter Lernprozesse 
und Verhelst & Glas (1993) gehen auf die 
Parameterschatzung des Modells fur 
reaktionskontingente Lernprozesse ein. 
Langeheine und v.d.Pol (1990a, b) stellen 
Modelle vor, mit denen die reaktionskon- 
tingente Veranderung einer kategorialen 
Personenvai'iable wahrend der Testbear- 
beitung analysiert werden kann. 



U bungsaufgaben 

1. Eine sehr fahige Person (0] = 2.0) 
und eine durchschnittliche Person 
(0 2 = 0.0) bearbeiten einen Lerntest. 
Dabei wird fur die erste Person eine 
Lernfahigkeit von S| = 0.0 und fur die 
zweite Person von 8 2 = 0.1 ermittelt. 
Mit welcher Wahi'scheinlichkeit losen 
beide Personen das fiinfte Item mit 
dem Parameter CJ5 = 1.0? Wieviele 
Items muB der Test umfassen, damit 
beide Personen beim letzten Item die- 
selbe Ldsungswahrscheinlichkeit ha- 
ben? 
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2. Sie vermuten, daB die Itemschwierig- 
keit in einem Konzentrationstest, der 
aus sehr vielen gleichartigen Items 
besteht, nur von der Position der Items 
irn Test abhangt. Die Annahme lautet, 
daB die Schwierigkeit als Effekt der 
Konzentrationsabnahme von Item zu 
Item um einen konstanten Betrag zu- 
nimmt. Beselireiben Sie eine Q-Matrix, 
mit der Sie diese Annahme formalisie- 
ren konnen. 

3. Die 6 virtuellen Items im Beispiel des 
letzten Unterkapitels erhalten fiir einen 
Datensatz die Schwierigkeitsparameter 
CTj = 1.5, o 2 = l- 8 ’ a 3 = 1-4, o 4 = 0.9, 
CTg = 0.5 und a 6 = 0.1. Wie groB ist der 
Lerneffekt, den man erzielt, wenn man 
1 Item (2 Items) richtig beantwortet? 



3.5.4 Die Messung der Wirk- 
samkeit von MaBnahmen 

In den bisherigen Kapiteln zur Veran- 
derungsmessung wurde davon ausgegan- 
gen, daB die getesteten Personen den Ver- 
anderungseinfliissen oder den Lernbedin- 
gungen in gleicher Weise oder in gleichem 
Ausmafi ausgesetzt sind. Dies gilt sowohl 
fiir Lemen zwischen den Testzeitpunkten 
(Kap. 3.5.2) als auch fiir Lernen wahrend 
der Testbearbeitung (Kap. 3.5.3). 

In vielen empirischen Studien mochte man 
jedoch die Wirksamkeit verschiedener 
Mafinahmen vergleichen und setzt daher 
verschiedene Personengruppen unter- 
schiedlichen Veranderungseinfliissen aus. 
Die Funktion von Testmodellen besteht 
dann darin, die Effekte dieser unter- 
schiedlichen VeranderungsmaBnahmen in 
den Modcllparametern abzubilden, so daB 
sie zwischen den Gruppen von Personen 
verglichen werden konnen. 

Fiir solche Untersuchungen gibt es eine 
sehr einfache Art der Auswertung, die 
allerdings in vielen Fallen groBe Nachteile 
hat. Diese Methode besteht darin, paral- 
lelisierten Personengruppen denselben 
Test vorzugeben, fiir jede einzelne Person 
den Personenparameter zu bestimmen und 
die Wirksamkeit der MaBnahmen durch 
Vergleiche der Mittelwerte von Personen - 
parametern zu untersuchen. Diese Daten- 
struktur zeigt Abbildung 128. 

Die Nachteile dieser Methode bestehen 
darin, daB alien Personen, auch wenn sie 
unterschiedlichen MaBnahmen ausgesetzt 
sind, dieselben Items vorgegeben werden 
miissen. Ein weiterer Nachteil liegt darin, 
daB der Vergleich der Wirksamkeit der 
MaBnahmen auf den Schatzungen der 
Personenparameter beruht. Diese Per- 
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sonenparameter haben aber, je nach An- 
zahl der Items, einen relativ hohen Schcitz- 
fehler. Dieser wiirde bei einem anschlie- 
Benden Vergleich der Gruppenmittelwerte 
z. B. mit Hilfe von t-Tests oder einer 
Varianzanalyse nicht beriicksichtigt, ob- 
wohl er berechenbar ist. 

Items 
1 k 

1 

N i 

1 

Personen 



1 



Abbildung 128: Die Datenstmktur bei Gruppen- 
vergleichen 



MaBnahme A 



MaBnahme B 



MaBnahme C 




MaBnahme 
A + B 

MaBnahme 
B + C 

MaBnahme 
A + C 



Abbildung 129: Unvollstandige Datenstruktur 

Erstens, die Eigenschaft in Form der Q- 
Matrix, Beziehungen zwischen den Items 
spezifizieren zu konnen. Zweitens, die 
Eigenschaft, daB nicht alle Personen alle 
Items bearbeitet haben mtissen, sondern 
verschiedene Personengruppen jeweils be- 
stimmte Teilmengen von Items bearbeiten 
konnen. Diese Teilmengen von Items 
mtissen sich nicht einmal uberlappen, 
wenn eine Verbindung zwischen ihnen mit 
Hilfe der Q-Matrix hergestellt wird. 



Diese Auswertungsmethode ist insofem 
unflexibel, als man mit ihr keine Unter- 
suchungen auswerten kann, bei denen 
dieselben Personen unterschiedlichen 
Kombinationen von Veranderungseinfltis- 
sen ausgesetzt sind oder auch mehrfach 
mit unterschiedlichen Itenmiengen getestet 
werden. 



Im linear-logistisehcn Testmodell 

r \ 



(1) p(x vi = l) = - 



expl e v -X qijTlj -< 

l H 



1 + exp 0 V -X Hij Hj - c 

^ J =1 , 



Was man fur die Analyse derartiger Daten 
braucht, ist ein Testmodell, das mit un- 
vollstandigen Datenmatrizen umgehen 
kann. Damit sind Datenstrukturen ge- 
meint, wie sie Abbildung 129 zeigt. 

Ein solches Testmodell stellt das linear- 
logistische Testmodell dar, das bereits in 
Kapitel 3.4.1. iiber Itemkomponenten dar- 
gestellt wurde. Es ist die Kombination von 
zwei Eigenschaften, die dieses Modell zur 
Messung von Veranderungen mit unvoll- 
standigen Datenmatrizen so universell ein- 
setzbar macht: 



(vgl. auch Kap. 3.4.1) gibt die Q-Matrix 
an, auf welche Basisparameter T|j die 
Itemparameter des Rasch-Modells zu- 
ruckgefuhr't werden konnen. Diese Riick- 
fuhrung auf Basisparameter erfolgt mit 
Hilfe einer gewichteten Sunmie, wobei die 
Chi-Koeffizienten die praexperimentell spe- 
zifizierten Gewichte darstellen. 

Dieses Modell wurde in Kapitel 3.4.1 dazu 
benutzt, Itemschwierigkeiten in einzelne 
Itemkomponenten zu zerlegen und in Ka- 
pitel 3. 5. 3.2, um itemspezifisches Lemen 
wahrend der Testbearbeitung abzubilden. 
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Tm Folgenden soil dargestellt werden, wie 
das Modell zur Messung der Wirksamkeit 
von MaBnahmen eingesetzt werden kann. 

Beispiel: globales Lernen 

Der wohl einfachste Fall, Lernen abzu- 



bilden, namlich 


einen globalen Lem- 


effekt zwischen 


zwei Testzeitpunkten 


anzunehmen (zum Begriff ‘globales 


Lernen’ s. Kap. 


3.5.2), druckt sich in 


folgender Q-Matrix aus: 




l 1 


l 


l 

l 


Vortest 


1 

I 

l 


k 


l 

l 


1 


1 1 




l l 

1 1 


Nachtest 


1 1 
1 l 


k 


1 1 
1 l 



Abbildung 130: Die Q-Matrix fiir globale : 
Lernen 

In i hr ist spezifiziert, daB derselbe Test 
als Vor- und Nachtest vorgegeben wurde 
und lediglich globales Lernen stattfindet 
Die Q-Matrix enthalt 2 k Zeilen, wobei Y 
die Anzahl der Items zu jedem Test- 
zeitpunkt ist. Diese 2 k Itemparameter 
werden auf lediglich k Basisparameter 
(die Itemschwierigkeiten zu beider 
Testzeitpunkten) zuriickgefiihrt. Hinzu 
konmit ein weiterer Basisparameter, der 
nur in den Zeilen fiir den zweiten MeB- 
Zeitpunkt eine 1 enthalt. Der Wert diese! 
Parameters druckt den Schwierigkeits- 
unterschied der Items ini Nachtest in 
Vergleich zum Voidest aus. Er parame- 
trisiert das AusmaB an globalem Lernen. 



Da die Q-Matrix keine linear abhangigen 
Spaltenvektoren enthalten daif (vgl. Kap. 
3.4.1), muB von den ersten k Spalten eine 
eliminiert werden. Diese Reduktion der 
Komponentenparameter um 1 entspricht 
der Summennormierung im normalen 
Rasch-Modell. 

Das mit dieser Q-Matrix (Abb. 130) spe- 
zifizierte Lernmodell ist identisch mit dem 
dreifaktoriellen Testmodell mit globalem 
Lernen, Gleichung (1) in Kapitel 3.5.2. 
Der Basisparameter r| h entspricht dem 
Zeitpunktparameter So. Das dreifaktorielle 
Rasch-Modell stellt also ebenfalls einen 
Spezialfall des LLTM dar. 

Das zweite Beispiel fiir die Abbildung von 
Veranderungen in der Q-Matrix betrifft die 
Situation, daB als Vor- und Nachtest 
unterschiedliche Items vorgelegt werden. 



Beispiel: globales Lernen bei unter- 
schiedlichem Vor- und Nachtest 

In diesem Fall ist lediglich erforderlich, 
daB mindestens ein Item (in Abb. 131 
sind es zwei Items) in Vor- und Nachtest 
identisch ist bzw. einen identischen 
Schwierigkeitsparameter aufweist: 



j= 


1 2 3 


4 5 


6 7 8 9 


Vortest 


1 

1 

1 


1 

1 






Nachtest 


1 

1 


1 

1 

1 1 








1 1 








1 1 



Abbildung 131: Q-Matrix fiir Vor- und Nachtest 
mit 2 Briickenitems 






3.5 Modelle der Veranderungsmessung 



287 



Diese sogenannten Briickenitems sind 
erforderlich, da sonst die Schwierig- 
keiten der Vortestitems nicht in Bezug 
auf die Schwierigkeiten der Nachtest- 
items bestimmt werden konnen. 

Allerdings hangt die MeBgenauigkeit 
und Validitat des Lerneffektparameters, 
hier T) 9 , stark von diesen Briickenitems 
ab. Sie sollten daher sehr sorgfaltig 
ausgewahlt werden und im Zweifelsfall 
sollte lieber ein weiteres Briickenitem 
aufgenommen werden. 

Diese beiden Beispiele fur die Quanti- 
fiziemng von Veranderungen in Vortest- 
Nachtest-Designs bedienen sich lediglich 
der Q-Matrix, in der die Itemparameter auf 
Basisparameter zuriickgefiihrt werden. Die 
eingangs genannte Verbindung mit der 
Moglichkeit, unvollstandige Datenmatri- 
zen zu verarbeiten, wurde hier noch nicht 
beansprucht. Dies ist anders, wenn man 
nicht zwei Tests anhand derselben Per- 
sonenstichprobe vergleichen will, sondem 
Personengruppen, die unterschiedliche 
MaBnahmen erhalten haben. 



1 

2 

ki 



k 2 



k 

A bbildung 132: Q-Matrix fitr 3 Personengruppen 
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Die Q-Matrix in Abbildung 132 stellt ein 
Beispiel dar, in dem 3 verschiedene 
Personengruppen vor der Testbearbeitung 
unterschiedliche MaBnahmen erhalten 
haben. 

Diese Q-Matrix entspricht der in Abbil- 
dung 130 dargestellten, jedoch hier fur den 
Vergleich von drei (statt zwei) Messun- 
gen. Demzufolge gibt es zwei Ejfektpa- 
rameter, die jeweils den Unterschied zur 
ersten Gruppe quantifizieren. 

Der wesentliche Unterschied liegt jedoch 
darin, daB nicht alle Items von denselben 
Personen bearbeitet wurden, sondem je- 
weils ein Drittel der Items von einer ande- 
ren Personengmppe. Um diesen Sachver- 
halt zu erfassen, benotigt man eine zweite 
Matrix, in der fur alle Personen spezifi- 
ziert ist, welche Items sie bearbeitet ha- 
ben. Dies ist die sogenannte B -Matrix, die 
fiir das Beispiel folgendermaBen aussieht: 



1 



Per- 

sonen 



N 

Abbildung 133: Die zu Abbildung 132 gehorende 
B-Matrix 

Die 3 Teilmatrizen, in die die gesamte Da- 
tenstruktur zerfdllt, sind mit Hilfe der Q- 
Matrix (s. Abb. 132) miteinander verbun- 
den, in der ausgedriickt ist, daB die drei 
Gruppen dieselben Items bearbeitet haben. 



Items 



1 kj k 2 k 
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Die in den letzten beiden Spalten der Q- 
Matrix spezifizierten globalen Effektpara- 
meter quantifizieren die Unterschiede zwi- 
schen den Gruppen. 

Und zwar quantifizieren sie samtliche 
Gruppenunterschiede, d.h. sowohl die Ef- 
fekte der MaBnahmen als auch gege- 
benenfalls vor den MaBnahmen vorhande- 
ne Gruppenunterschiede. Es ist daher mit 
den Mitteln der Versuchsplanung dafiir 
Sorge zu tragen, daB die 3 Personen- 
gruppen vergleichbar sind (z.B. durch 
Parallelisierung oder Randomisierung). 

Dieses System, in dem die B -Matrix an- 
gibt, welche Personen welche Items bear- 
beitet haben, und die Q-Matrix, welche 
Items in welche Komponenten zerlegt 
werden, ist auBerst flexibel und ermoglicht 
es, so gut wie alle denkbaren Daten- 
strukturen der Veranderungsmessung zu 
analysieren. 

Ein Beispiel fur eine etwas komplexere 
Datenstruktur stellt die folgende Q-Matrix 
mit zugehoriger B-Matrix dar: 



Beispiel: Drei-Gruppen Design mit 2 
M eBzeitpunkten 

Es handelt sich um ein Experiment mit 
drei Personengruppen, die jeweils einen 
Voidest und einen Nachtest bearbeiten. 
Die Nachtestitems entsprechen den Items 
des Vortests und es wird lediglich globa- 
les Lernen angenommen. Die drei Perso- 
nengruppen wurden aber unterschiedli- 
chen VeranderungsmaBnahmen ausge- 
setzt, deren Effekte auf die Nachtest- 
leistung analysiert werden sollen. 



Items 





Komponenten 


Vortest 


1 

1 

1 

1 


Gruppe 1 


1 1 l 

1 1 1 

1 1 1 

1 1 1 


Gruppe 2 


1 1 1 

1 1 l 

1 1 1 

1 1 1 


Gruppe 3 


1 1 1 
l 1 1 

1 1 1 
1 1 1 



Abbildung 134: Q-Matrix fur 3-Gruppen und 2 
MeGzeitpunkte 



Der globule Lerneffekt, der fiir alle drei 
Personengruppen identisch ist, ist in der 
letzten Spalte der Q-Matrix spezifiziert. In 
den drei vorangehenden Spalten sind die 
gruppenspezifischen Lerneffekte spezifi- 
ziert. Von diesen drei Spalten muB wie- 
derum eine gestrichen werden, da sie sich 
sonst zum letzten Spaltenvektor addieren. 

Items 



Vortest Gruppe 

1 



Gruppe 

2 



Gruppe 

3 



Personen 



i 



Abbildung 135: Die zugehorige B-Matrix 
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Was ist der Vorteil, wenn man Veran- 
derungsmaBnahmen auf diese Weise quan- 
tifiziert anstatt iiber den Mittelwertsver- 
gleich von Personenparametern? 

Der erste Vorteil besteht darin, daB man 
priifen kann, ob die getroffene Annahme 
einer globalen Veranderung iiberhaupt auf 
die Daten zutrifft. Dies kann man mit 
Hilfe der in Kapitel 5 beschriebenen Mo- 
dellgeltungskontrollen tun. Man testet da- 
mit auch die Voraussetzungen fur einen 
Mittelwertsvergleich, denn ein Mittel- 
wertsvergleich setzt voraus, daB sich die 
Gruppenunterschiede quantitativ auf der 
gemessenen Dimension abbilden lassen. 

Der zweite Vorteil liegt darin, daB die 
statistische Signifikanz der Veranderungs- 
effekte (was der statistischen Signifikanz 
der Mittelwertunterschiede analog ist) 
direkt irn Rahmen der Anwendung des 
Testmodells gepriift werden kann. Hierfiir 
gibt es zwei Moglichkeiten, namlich ent- 
weder, indem man einen Modellvergleich 
mit und ohne diesen Parameter durchfuhrt 
(s. Kap. 5), oder indem man einen Einzel- 
parameter iiber seinen Standards elicit z- 
fehler auf Abweichung von 0 testet (s. 
Kap. 6.1). Diese Art der Hypothesen- 
priifung ist insofern ein Vorteil, als man 
nicht mit fehlerbehafteten Schatzungen der 
Personenparameter rechnen muB (wie bei 
Mittelwerts vergleichen) . 

Bei diesen Beispielen zur Veranderungs- 
messung enthalt die Q-Matrix nur Nullen 
und Einsen. Dies muB nicht notwendi- 
gerweise der Fall sein. Die Q-Matrix kann 
wie in Kapitel 3.4.1 beschrieben, auch 
gebrochene Zahlen als Gewichte ent- 
halten. Dies ist dann sinnvoll, wenn man 
die Dosis einer Mafinahme in Zeitein- 
heiten wie Tagen oder Wochen, in 
Hdufigkeiten oder in Prozentanteilen 



spezifizieren mochte. Diese Flexibility 
bringt zusatzliche Vorteile gegeniiber 
normalen Mittelwertsvergleichen. 

Wie schon in Kapitel 3.4.1 ausgefiihrt 
wurde, stellt das linear-logistisehc Test- 
modell einen Spezialfall des normalen 
Rasch-Modells dar. Die Zerlegung in addi- 
tive Komponenten setzt voraus, daB die 
Items die Annahmen des Rasch-Modells 
erfiillen. Insbesondere wird die Annahme 
der Itemhomogenitdt vorausgesetzt, d. h. 
alle Items erfassen dieselbe latente Dimen- 
sion, auf der auch der Fernfortschritt oder 
die Veranderung abgetragen wird. 

Dies ist eine sehr restriktive Annahme, 
wenn es um die Messung von Verande- 
rungen geht. Das sogenannte linear-lo- 
gistische Testmodell mit abgeschwcichten 
Annahmen (FFRA wie relaxed assump- 
tions) gibt diese Annahme der Homoge- 
nitat der Items zu alien MeBzeitpunkten 
auf. 

Das Modell setzt allerdings voraus, daB 
dieselben Personen mindestens zweimal 
getestet wurden. Sie konnen jedoch eine 
individuelle Dosis verschiedener MaBnah- 
men erfahren haben, die wiederum in einer 
praexperimentell festzulegenden Q-Matrix 
zu spezifizieren ist. 

Fur zwei Testzeitpunkte, t = 1 und t = 2, 
laBt sich das Modell wie folgt sc h re i ben. 
Fiir den ersten Testzeitpunkt gilt die 
logistische Funktion, wobei keine Homo- 
genitat der Items angenommen wird. Der 
Parameter 0 vi beschreibt die Tendenz 
einer Person, bei Item i eine 1-Antwort zu 
geben. 
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Das Modell ist insofern als ein mehrdi- 
mensionales Modell zu charakterisieren, 
als jede Person hinsichtlich jedes Items 
eine andere Eigenschaftsauspragung in 
Form des Parameters 0 vi hat. 



Die A nt wort wall rse hci n I iehkeit zum Zeit- 
punkt t = 2 hangt von demselben Para- 
meterwert ab, jedoch kommt nun ein 
globaler Effekt der MaBnahmen j = 1 bis 
j = h hinzu, und zwar in Form einer mit 
q v j gewichteten Summe. 



exp 



(3) p(x vit = l|t = 2): 



0vi-X 9vj bj 

j=l 



1 + exp 



®vi 2 j bvj bj 

j=l 



Anders als beim LLTM, gibt diese Q- 
Matrix fur jede Person an, welcher Dosis 
der Mafinahme j sie zwischen den beiden 
Zeitpunkten ausgesetzt war. Die in der Q- 
Matrix spezifizierten Gewichte konnen 
z.B. Dosierungen einer Medikation, Zeit- 
einheiten eines Lernprogramms oder 
Ubungshaufigkeiten sein. 

Die Veranderung, die in diesem Modell 
abgebildet wird, ist jedoch global, und 
zwar sowohl hinsichtlich der Items als 
auch hinsichtlich der Personen. Das be- 
deutet, der Effekt der MaBnahme j wirkt 
sich in gleicher Hohe auf die Veranderung 
der Antwortwahrscheinlichkeiten alter 
Personen und aller Items aus. 



Es ergibt sich somit die zunachst etwas 
paradox erscheinende Kombination einer 
relativ strengen Annahme, was die Wir- 
kung der MaBnahmen anbetrifft (daB sie 
namlich gleich groB fur alle Items und 
Personen sei) mit dem Fehlen jeglicher 
Homogenitatsannahme beziiglich der 
Items. Dies mag insofern paradox erschei- 



nen, als nicht jedes Item dieselbe Dimen- 
sion messen muB, andererseits sich aber 
die VeranderungsmaBnahmen gleichmaBig 
auf alle Items auswirken miissen, in 
diesem Sinne also einen ‘homogenen’ Ef- 
fekt haben. 

Inwieweit dies wirklich eine Paradoxie 
darstellt, kann wohl nur fur den konkreten 
Fall entschieden werden. Auf jeden Fall 
gibt es viele Anwendungsfalle in der Ver- 
anderungsmessung, in denen man sich 
einen globalen Effekt auf eine Reihe von 
Indikatoren erhofft, ohne daB die ein- 
zelnen Indikatoren jedoch Ausdruck einer 
einzigen latenten Dimension sind. 

Mit diesem Modellannahmen reahsiert das 
LLRA eine eigenwillige Antwort auf die 
Validitdtsfrage der Veranderungsmessung 
(Kap. 3.5. 1.3): die Validitat des Verande- 
rungsmaBes druckt sich darin aus, daB die 
Veranderung bei alien Items gleich graft 
ist, u nabhangig davon, ob die Items auch 
nur zu einem Zeitpunkt dasselbe messen. 

Was das LLRA uberhaupt erst an wend bar 
macht, ist die Tatsache, daB die 0 V1 -Para- 
meter gar nicht gesclidtzt zu werden 
brauchen. Vielmehr werden sie bei der 
Parameterschatzung ‘herauskonditioniert’ 
(s. u. Kap. 4.), so daB lediglich die q-Para- 
meter geschatzt werden miissen. 



Beispiel: K ontrollgruppendesign 

Tm Fall eines einfachen Versuchs-Kon- 
trollgruppendesigns, in dem alle Personen 
der Kontrollgruppe keine Veranderungs- 
maBnahme und alle Personen der Experi- 
mentalgruppe dieselbe MaBnahme erhal- 
ten, besteht die Q-Matrix lediglich aus 
einem einzelnen Spaltenvektor: alle Per- 
sonen der Kontrollgruppe erhalten eine C 
und alle Personen der Experimentalgruppe 
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eine 1. Dementsprechend ist auch nur ein 
einziger Effektparameter r|j zu schatzen, 
der den Unterschied zwischen Expe- 
rimentalgruppe und Kontrollgruppe zum 
zweiten Mebzeitpunkt charakterisiert. 

Dies stellt ein uberaus giinstiges Ver- 
hdltnis von Datenmenge zur Anzahl der zu 
schatzenden Modellparameter dar. 



Riickblickend auf Kapitel 3.5.2 sei daran 
erinnert, dab das LLRA rnit diesen Mo- 
delleigenschaften die Messung globaler 
Veranderungen unter Zulassung einer 
Weeks elwirkung zwischen Personen und 
Items erlaubt (Modell (4) in Kap. 3.5.2). 

In diesem Kapitel wurden alle Modelle 
nur fur dichotome Daten und eine quan- 
titative Personenvariable dargestellt. Die 
Verallgemeinemngen auf mehrkategorielle 
ordinale Itemantworten ist fur linear-logi- 
stische Modelle prinzipiell moglich und 
wurde bereits in Kapitel 3.4.1 kurz dar- 
gestellt. Diese verallgemeinerten Modelle 
lassen sich ebenso fur Zwecke der Ver- 
anderungsmessung einsetzen, wie die hier 
dargestellten dichotomen Modelle. 

Das Gleiche trlfft auf linear - logistische 
Klassenmodelle zu (s. Kap. 3.4.3), mit 
denen Veranderung als Klassenwechsel 
und als Anderung der klassenspezifischen 
Itemparameter abgebildet werden kann. 



L iteratur 

Das LLTM als Modell zur Quantifizierung 
von Effekten von Mabnahmen wurde von 
Fischer (1972, 1976, 1983a, 1987 und 
1989) und Fischer & Formann (1982b) 
vorgestellt. Das FFRA geht ebenfalls auf 
Fischer zuriick (1974a, 1977a, 1983b, s.a. 
Formann & Spiel, 1989). 



Ubungsaufgabe 

Sie fuhren ein Kontrollgruppenexperiment 
mit Vor- und Nachtestmessung durch. Die 
Kontrollgruppe bearbeitet vor und nach 
einer P I ace bo- M a B nab me den aus 4 Items 
bestehenden Test. Von der Experimental- 
gmppe erwarten Sie, dab sich die expe- 
rimentelle Mabnahme im Sinne einer 
itemspezifischen Verandemng nur auf die 
ersten beiden Items auswirkt. Spezifizie- 
ren Sie die Q- und die B -Matrix des 
FFTM, so dab sich die erwarteten Effekte 
an jeweils einem Parameter ablesen lassen. 
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4. Parameterschatzung 

In Kapitel 3 wurde eine Vielzahl von 
Testmodellen dargestellt, die das Anwort- 
verhalten in einem Test in unterschiedli- 
cher Weise beschreiben. Die meisten die- 
ser Testmodelle enthalten sogenannte Pa- 
rameter, d.h. Kenngroben, deren Weite fiir 
einen bestimniten Test erst anhand der Da- 
ten ermittelt werden miissen. Ein solcher 
Parameter kann z.B. die Schwierigkeit 
eines Items sein, seine Trennscharfe eines 
Items oder die Distanz der Schwellen bei 
mehrkategoriellen ordinalen Itemantwor- 
ten. Vor allem stellen bei quantitativen 
Testmodellen auch die Mebwerte der Per- 
sonen Parameter dar, namlich die Perso- 
nenparameter. 

Bei vielen Modellen konnen diese Para- 
meter nicht einfach dadurch berechnet 
werden, dab man beobachtete Daten in 
eine Foimel einsetzt und die Parameter- 
werte ausrechnet. Das liegt daran, dab es 
bei diesen Modellen keine expliziten Glei- 
chungen gibt, d.h. Formeln, die jeweils 
nach einer unbekannten Grobe au fldsbar 
sind. Viclmchr stehen in diesen Gleichun- 
gen rechts und links vom Gleichheitszei- 
chen unbekannte Groben (die Modellpa- 
rameter), so dab man spezielle Rechenver- 
fahren anwenden mub, um die Parameter- 
werte zu bestimmen. In diesem Kapitel 
soil das Prinzip dieser Rechenverfahren 
dargestellt werden, ohne jedoch fiir jedes 
Testmodell ein entsprechendes Verfahren 
im Detail darzustellen. 

Man spricht von Parameterschatzung und 
nicht von Parameterberechnung, weil es 
sich um die Ermittlung von Populations- 
kennwerten anhand von Stichprobendaten 
handelt. Mit dem Begriff der Parameter- 
schatzung ist auch verbunden, dab man 



nicht nur einen Schatzwert ermittelt, son- 
dern auch berechnen kann, wie genau 
dieser Schatzwert den walircn Parameter 
trifft. 

Die Rolle der Parameterschatzung im Pro- 
zeb einer Testanalyse ist in Abbildung 136 
veranschaulicht, die an die Diskussion des 
Modellbegriffs in Kapitel 1.2.3 ankniipft. 



Empirie 



Modell 




q , 0 v 



produziert 



Perso- 

nen 



Items 



sind 

fur 



0 


2 


7 


8 


9 




1 


4 


6 


4 


3 


Parameter- w 


3 


0 


3 


7 


1 


scMtzung r 


0 


1 


4 


2 


5 




1 


2 


6 


6 


» 








p 

0 

p 

u 

1 

a 

t 

i 

o 

n 



S 

t 

i 

C 

h 

P 

r 

o 

b 

e 



Abbildung 136: Die Rolle der Parameterschatzung 
bei der Testanalyse. 



Wahrend die linke Seite in Abbildung 136 
rea/e Gegebenheiten wie die Personen, die 
Items und die Testdaten darstellt, enthalt 
die rechte Seite der Abbildung die Mo- 
dellparameter und deren Schatzer als die 
unbekannten, noch zu bestimmenden Gro- 
fien. Einer Erlautemng bedaif die vertikale 
Unterteilung der Abbildung in Population 
und Stichprobe. Man konnte sich auf den 
Standpunkt stellen, dab uberhaupt kein 
Stichprobenproblem gegeben ist, da man 
nur genau jene Personen messen will, die 
man auch untersucht hat, und genau jene 
Items, die auch im Test enthalten sind. 
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Warum Schatzung von Populations- 
kennwerten? 

Wenn man hier von Parameterschatzung 
anhand von Stichprobendaten spricht, so 
ist nicht gemeint, daB man aus einer Stich- 
probe von Personen auf eine Population 
von Personen verallgemeinem will. 

Vielmehr hat man fur die Ermittlung der 
Fahigkeit einer Person nur eine Verhal- 
tensstichprobe, namlich die Stichprobe der 
Reaktionen auf die Items im Test zur 
Verfugung. Entsprechend hat man zur 
Bestimmung der Itemeigenschaften nur 
eine Stichprobe von Personen zur Ver- 
fugung, namlich diejenigen, die den Test 
bearbeitet haben. 

Insofem schlieBt man von einer Stich- 
probe von Itemantworten auf die Eigen- 
schaftsauspragung einer Person und aus 
einer Stichprobe von Personenantworten 
auf die Eigenschaften eines Items. Die 
Genauigkeit der Schatzungen der Perso- 
neneigenschaften hangt daher von der 
GroBe der Itemstichprobe und ggf. von 
anderen Merkmalen dieser Stichprobe ab. 
Entsprechend hangt die Genauigkeit der 
Schatzungen der Itemparameter von der 
GroBe und weiteren Merkmalen der Per- 
sonenstichprobe ab. 



Der Vorgang der Parameterschatzung ist 
bei einigen Testmodellen, insbesondere 
bei den deterministischen Modellen schr 
einfach, jedoch beim GroBteil der proba- 
bilistischen Testmodelle so kompliziert, 
daB er nicht per Hand oder per Tischrech- 
ner durchgefiihrt werden kann. Hierfur ist 
man auf geeignete Computerprogramme 
angewiesen. Es fragt sich daher, warum 
man diese komplizierten Rechenverfahrcn 
uberhaupt in einem Lchrbuch behandelt, 
wenn die Berechnung ohnedies stets dem 



Computer uberlassen bleibt. Hierauf gibt 
es drei Antworten. 

Erstens wird in diesem Kapitel nicht fur 
jedes Testmodell ein Schatzverfahren be- 
schrieben, sondern es wird excmplarisch 
fur zwei Grundmodelle das jeweilige Prin- 
zip des Schatzverfahrens dargestellt. Da- 
mit soil diesem Rechenvorgang das My- 
stische genommen und ein Eindruck ver- 
mittelt werden, um welche Allen von Be- 
rechnungen es sich dabei handelt. 

Zweitens dient ein solches Grundverstand- 
nis dazu zu beurteilen, welche praktischen 
Moglichkeiten die Testmodelle uberhaupt 
bieten und welche Modellerweiterungen 
seitens der Parameterschatzung moglich 
sind. Es dient dazu, die Notwendigkeit ge- 
wisser Modellrestriktionen einzusehen, die 
man in Kauf nehmen muB, um zuver- 
lassige Parameterschatzungen zu erhalten. 

Drittens gibt es auch im praktischen Um- 
gang mit entsprechenden Computerpro- 
grammen manchmal Probleme, die man 
nur verstehen und losen kann, wenn man 
eine Idee von dem jeweiligen Schatzver- 
fahren hat. 

Die Darstellung ist in diesem Kapitel inso- 
fem vereinfacht, weil sie sich ausschlieB- 
lich auf sogenannte Maximum-Likelihood- 
Verfuhren bezieht. Diese sind auf alle hier 
behandelten Modelle erfolgreich anwend- 
bar und konnen sich auf eine ausgereifte 
mathematische Theorie stutzen, deren Sat- 
ze und Theoreme bei der Anwendung von 
Testmodellen von groBem praktischen 
Nutzen sind. 

Ausgenommen von dieser Maximum- 
Likelihood-Methode sind alle determini- 
stischen Modelle, in denen nur die 
Wahrscheinlichkeiten 0 und 1 unterschie- 
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den werden. Bei diesen Modellen stellt 
sich das Problem der Parameterschatzung 
irn allgemeinen nicht. So wurde z.B. bei 
der Guttman-Skala (Kap. 3.1. 1.1.1), dem 
Parallelogramm-Modell (Kap. 3.1. 1.3.1) 
oder beim Modell deterministischer Klas- 
sen (Kap. 3. 1.2.1) darauf hingewiesen, dab 
man allein durch Auszahlen von Pattern- 
haufigkeiten oder Umsortieren von Perso- 
nen und Items die gewiinschten ‘Me6- 
werte' fur Personen und Items erhalt, wel- 
che meist nur in Rangordnungen bestehen. 

Im ersten Unterkapitel 4.1 wird zunachst 
dargestellt, was man unter der Likelihood- 
funktion versteht. Das zweite Unterkapitel 
beschreibt einige Verfahren, wie man das 
Maximum einer solchen Likelihoodfunk- 
tion anhand von Testdaten bestimmen 
kann. Wie gut und zuverlassig schlieblich 
die so erhaltenen Parameterschatzungen 
sind, wird im dritten und vierten Unter- 
kapitel behandelt. 

4.1 Die Likelihoodfunktion 

Die Likelihoodfunktion beschreibt die 
Wahrscheinlichkeit der beobachteten Test- 
daten unter der Bedingung des ange- 
nonmienen Testmodells als Funktion der 
Modellparameter. Der Begriff wurde be- 
reits im Kapitel 3. 1.1. 2.1 iiber das 
Binomialmodell eingefiihrt und in vielen 
Kapiteln iiber quantitative Testmodelle ist 
die Likelihoodfunktion des betreffenden 
Modells dargestellt worden. 

Die Likelihoodfunktion beschreibt die 
Wahrscheinlichkeit der Daten unter der 
Annahme, daft das Modell gilt. Der Wert 
der Likelihoodfunktion gibt somit eine 
Antwort auf die Frage: Wie wahrschein- 
lich ist das, was ich beobachte, wenn mein 
Modell wirklich gilt? Haben dieselben 



Testdaten unter einem anderen Modell 
eine holier e Wahrscheinlichkeit, so ist das 
andere Modell offensichtlich besser. Man 
kann den Wert der Likelihoodfunktion 
also direkt benutzen, um etwas iiber die 
Giite des jeweiligen Testmodells auszu- 
sagen. Diese Einsatzmoglichkeit der Like- 
lihoodfunktion wird in Kapitel 5 aufge- 
griffen. In diesem Kapitel interessiert da- 
gegen, wie man mit Hilfe der Likelihood- 
funktion Modellparameter schatzen kann. 

Die Modellgleichung eines Testmodells 
beschreibt die Wahrscheinlichkeit einer 
einzelnen Itemantwort x vi , d.h. einer Zelle 
der Datenmatrix: 

(1) p(x vj = x) = p vix . 

Eine solche Modellgleichung, was auch 
inmier man fiir p vix einsetzt, stellt selbst 
schon eine Likelihoodfunktion dar, nam- 
lich die Likelihood eines einzelnen Da- 
tums. Was im folgenden jedoch unter 
Likelihoodfunktion verstanden wird, ist 
die Likelihood der gesamten Testdaten- 
matrix, d.h. die Wahrscheinlichkeit alter 
beobachteten Itemantworten. 

Wenn man so will ist die Modellgleichung 
das 'Likelihood-atom', welches nicht wei- 
ter aufgesplittet werden kann. Die Likeli- 
hoodfunktion der gesamten Testdaten setzt 
sich multiplikativ aus diesen elementaren 
Bausteinen zusammen, d.h. die Wahr- 
scheinlichkeit der Testdatenmatrix ist das 
Produkt iiber alle Personen und iiber alle 
Items der Wahrscheinlichkeit der jeweili- 
gen Itemantwort: 

(2) L = (Daten| Modell) 

N k 

= n n Pvix- 

v=l i=l 
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Diese Berechnung der Walirsehcinliclikeit 
aller Daten beruht auf dem Multiplika- 
tionssatz der Wahrscheinlichkeitsrechnung 
und setzt daher voraus, daB alle Itemant- 
worten stochastisch unabhangig voneinan- 
der zustande gekommen sind (s. Kap. 
2.3.3). Nur in diesem Fall diirfen die 
Einzelwahrscheinlichkeiten multipliziert 
werden, um die Gesamtwahrscheinlichkeit 
zu erhalten 



Rechenbeispiel 

Es haben 3 Personen 2 Testitems bear- 
beitet und aufgmnd des angenommenen 
Testmodells haben sie die folgenden 
Losungswahrscheinlichkeiten: 





Item 




1 2 


1 


.1 .3 


Person 2 


.5 .6 


3 


.8 .9 



Sofern alle 3 Personen die beiden Items 
gelost haben, also die Testdatenmatrix 
FolgendermaBen aussieht: 



Item 





1 


1 


Person 


1 


1 




1 


1 



nimmt die Likelihoodfunktion den 
Wert: 

L = 0.1 0.30.5-0.60.80.9 = 0.00648 
an. 

Sofern die erste Person jedoch beide 
Items nicht gelost hat, d.h. die Testda- 
ten folgendermaBen aussehen 



0 


0 


1 


1 


1 


1 



nimmt die Likelihood den Wert 
L = 0.90.7 0.50.60.80.9 = 0.13608 
an. Der zweite Datensatz hat also unter 
den gegebenen Modellparametern eine 
wesentlich hohere Likelihood oder 
W ahrscheinlichkeit. 

Diese Relation ist letztlich Ausdruck 
der Tatsache, daB man von einer Person 
mit so geringen Losungswahrschein- 
lichkeiten, wie die erste Person sie hat, 
auch eher erwartet, daB sie die Items 
nicht lost. 



Das Rechenbeispiel demonstriert, daB bei 
der Berechnung der Likelihood imnier die 
Wahrscheinlichkeiten der beobachteten 
Itemantworten aufmultipliziert werden, 
d.h. die Likelihoodfunktion ist eine Lunk- 
tion fur einen bestimmten gegebenen Da- 
tensatz. 

Die Likelihoodfunktion kann stets nur 
Werte zwischen 0 und 1 annehmen, da sie 
als Produkt von Wahrscheinlichkeiten de- 
finiert ist und das Produkt von Wahr- 
scheinlichkeiten stets wieder eine Wahr- 
scheinlichkeit ergibt. Lernerhin werden 
diese Werte in der Regel ziemlich klein, 
d.h. sie liegen nahe bei 0, da das Produkt 
von Wahrscheinlichkeiten mit wachsender 
Anzahl der Laktoren inmier kleiner wird. 

Eine Funktion beschreibt die Abhangigkeit 
einer GroBe von anderen GroBen. Im Lalle 
der Likelihoodfunktion wird die Abhan- 
gigkeit der Wahrscheinlichkeit der Daten 
von den Modellparametern beschrieben. 
Damit ist gemeint, daB die Parameter eines 
Testmodells die veranderlichen GroBen 
darstellen, also die X-Variablen in der 
ublichen Notation. Das bedeutet, daB die 
Likelihoodfunktion eine Lunktion mehre- 
rer Veranderlicher ist, in der Regel sogar 
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sehr vieler Veranderlicher, namlich so 
viele, wie es Model Iparameter gibt. 

Wiirde ein Testmodell nur einen einzigen 
Modellparameter enthalten, so konnte man 
sich die Likelihoodfunktion in Fonn eines 
Funktionsgraphen veranschaulichen (s. 
Abb. 137). 




Abbildung 137: Beispiel flir einen Funktions- 
graphen der Likelihood in Abhangigkeit von nur 
einem Modellparameter 0 

Anhand dieses Beispiels laBt sich verdeut- 
lichen, inwiefem man die Likelihoodfunk- 
tion zur Parameterschatzung benutzen 
kann. Da man sein Testmodell, wozu auch 
die Modellparameter gehoren, so konstru- 
ieren mochte, daB die Daten moghchst 
wahrscheinlich sind, wahlt man in diesem 
Fall fiir den Modellparameter den Wert 4, 
da die Likelihoodfunktion an der Stelle 
0 = 4 ein Maximum besitzt. 

Das ist die Grundidee der Maximum- 
Likelihood-Methode (ML-Methode), die 
besagt, daB alle Modellparameter auf den 
Wert festgelegt werden, an dem die 
Likelihoodfunktion ihr Maximum hat. Der 
Wert 4 ist also in diesem Beispiel 
der Maximum-Likelihood-Schatzer (ML- 
Schatzer) fiir den Modellparameter 0. 

Tm Fall mehrerer Modellparameter kann 
man sich die Likelihoodfunktion nur noch 
als ein mehrdimensionales Gebirge vor- 
stellen (sofem man hier noch von Vorstel- 



lung sprechen kann). Die Aufgabe der ML- 
Schatzung besteht in dieser Vorstellung 
darin, den hochsten Gipfel aufzuspiiren 
und dessen Koordinaten zu bestimmen, 
welche dann die Schatzwerte fiir die 
Modellparameter sind. Hierfiir benotigt 
man die Hilfsmittel des (particllcn) Dif- 
ferenzierens, worauf im nachsten Kapitel 
eingegangen wird. 

Bevor man jedoch einen Maximierungs- 
algorithmus anwendet, um die Modellpa- 
rameter zu bestimmen, kann man an der 
Gleichung der Likelihoodfunktion fiir ein 
bestimmtes Testmodell bereits sehen, wel- 
che Informationen aus den Testdaten iiber- 
haupt zur Schatzung der Modellparameter 
benotigt werden. Die Likelihoodfunktion 
zeigt, welche Informationen aus den Test- 
daten bei der Anwendung eines bestimm- 
ten Testmodells ausgewertet und welche 
Informationen als irrelevant betrachtet 
werden. 

Bei der Darstellung einzelner Testmodelle 
in Kapitel 3 wurde daher oft die Likeli- 
hoodfunktion betrachtet, so z.B. fiir das 
Binomialmodell in Kapitel 3.1. 1.2.1, das 
Rasch-Modell in Kapitel 3.1. 1.2.2, das 
mehrdimensionale Rasch-Modell in Kapi- 
tel 3.2.2 oder fiir das ordinale Rasch- 
Modell in Kapitel 3.3.1. 

Sinn dieser Betrachtungen war es zu 
sehen, welche Haufigkeitsstatistiken aus 
der Testdatenmatrix zur Schatzung welcher 
Parameter benotigt werden. Im Fall des 
Binomialmodells wird z.B. nur benotigt, 
wieviele Aufgaben eine Person gelost hat, 
um ihren Fahigkeitsparameter zu eimitteln. 
Die Likelihoodfunktion dieses Modells 
lautet namlich: 

o) L=nev (i-0v) k_rv , 

V— 1 
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vgl. Kapitel 3. 1.1. 2.1. Es wird nicht die 
Information benotigt, welche Items eine 
Person gelost hat und welche nicht. Ledig- 
lich der Summenscore r v einer Person 
taucht in der Likelihoodfunktion auf. 



Wie sieht die Datenmatrix mit dichoto- 
men Antworten aus die in diesem Bei- 
spiel den hochsten Wert der Likelihood- 
funktion hat? 



Auch die Information, wie oft ein be- 
stimmtes Item insgesamt gelost wurde, 
wird in diesem Lall nicht benotigt, urn den 
Wert der Likelihoodfunktion zu ermitteln. 
Dies ist Ausdmck der Tatsache, dab im 
Binomialmodell alle Items als gleich 
schwierig angenommen werden. 

Wie auch immer man das Maximum einer 
solchen Likelihoodfunktion emiittelt, es 
werden bei der Parameterschatzung von 
den beobachteten Testdaten nur jene Hau- 
figkeitsstatistiken benotigt, die in der Like- 
lihoodfunktion enthalten sind. 



L iteratur 

Zum Begriff der Likelihood und zur Maxi- 
mum-Likelihood-Methode siehe Wendt 
(1983) und Bortz (1984). Die mathemati- 
sche Theorie der Maximum-Likelihood- 
Methode ist in Kendall & Stuart (1973) 
abgehandelt. 



U bungsaufgabe 

Die folgende Matrix gibt die anhand von 
Modcllparametern berechneten Losungs- 
walirsehcinliehkeiten von 4 Personen bei 
5 Items wieder: 

Item 
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.2 


.3 


.45 


.6 


.7 


Person 2 


.1 


.25 
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.9 


.9 
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4.2 Die Suche nach dem 
Maximum 

Die Prozedur der Parameterschatzung be- 
steht darin, das Maximum der Likelihood- 
funktion zu ermitteln. Dies geschieht auf 
die gleiche Art und Weise, wie man bei 
Funktionen einer Veranderlichen die Ex- 
trema, d.h. die Minima und Maxima errnit- 
telt. Man berechnet die erste Ableitung 
nach der Unbekannten X, setzt diese erste 
Ableitung gleich 0 und lost die Gleichung 
nach X auf. 

Anmerkung: Im folgenden wird vorausgesetzt, 
daB diese Methode der Extxemwertbestimmung bei 
einfachen Funktionen. z.B. aus dem Mathematik- 
unterricht der Schule, bekannt ist. 

Bei der Likelihoodfunktion handelt es sich 
jedoch urn eine Funktion mehrerer Ver- 
anderlicher. Das Verfahren des ‘Differen- 
zierens und Nullsetzens’ ist jedoch im 
wesentlichen das gleiche, d.h. es folgt der- 
selben Logik und es wird praktisch genau- 
so durchgefiihrt. Man spricht in diesem 
Fall vom partiellen Differenzieren. 

Beim partiellen Differenzieren nach einer 
bestimmten Veranderlichen, d.h. nach 
einem bestinmiten Parameter, werden alle 
anderen Parameter wie Konstanten be- 
handelt und die iiblichen Differenziemngs- 
regeln angewandt. 

Als Resultat erhalt man nicht mehr nur 
eine Gleichung, die Null-gesetzt werden 
muB, sondern ein ganzes Gleichungssy- 
stem. Die Auflosung dieser Gleichungen 
besteht nicht mehr nur aus einem Wert, bei 
dem das Maximum liegt, sondern aus den 
Koordinaten des Maximums in einem 
mehrdimensionalen Raum, der soviel Di- 
mensionen hat, wie es Model Iparameter 



gibt. Diese Koordinaten sind genau die ge- 
suchten Schatzwerte der Modellparameter. 

Dieses Verfalrren ist im folgenden anhand 
der Likelihoodfunktion des Binomialmo- 
dells illustriert. Die Likelihoodfunktion 
des Binomialmodells (s. Kap. 3.1. 1.2.1) 

L = fi e v •(i-e v ) k ” Iv 

V— 1 

ist eine Funktion von N Unbekannten, 
namlich den Parametern 0 V der N geteste- 
ten Personen. Soil ein bestimmter Perso- 
nenparameter 0 V geschatzt werden, so 
stellt dieser die Unbekannte dar, nach der 
partiell differenziert werden muB. 

Da nach den Ableitungsregeln (s. Kasten 
‘Grundregeln des Differenzierens’) die Ab- 
leitung von Produkten sehr mtihsam ist, 
wird die Likelihoodfunktion zuvor loga- 
rithmiert. Dies andert am Ort des Maxi- 
mums nichts, da der Logarithmus eine 
monotone Transformation ist (s.o. Kap. 
3.1. 1.2.2). D.h., nimmt man von einer 
Menge von Zahlen deren Logarithmus, so 
bleibt die groBte Zahl auch nach ihrer 
Logarithmiemng die relativ groBte. Dem- 
entsprechend sind die Koordinaten des 
Maximums der logarithmierten Likeli- 
hoodfunktion identisch zu den Koordina- 
ten des Maximums der unlogarithmierten 
Likelihood. 

Der Logarithmus der Likelihoodfunktion 
des Binomialmodells lautet 
N 

(1) logL = X [r v log(e v ) + (k-r v )log(l-6 v )J. 

V=1 

Um diese Transformation nachzuvollzie- 
hen, benotigt man zwei Reehenregcln iiber 
das Logarithmieren von algebraischen 
Ausdrucken (s.a. Kap. 3. 1.1. 2.2): 
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1. Der Logarithmus eines Produktes ist 
gleich der Summe der Logarithmen und 

2. der Logarithmus einer Potenz ist gleich 
dem Exponenten multipliziert mit dem 
Logarithmus der Basis. 

Differenziert man jetzt partiell nach einem 
bestimmten Personenparameter 0 V , so be- 
notigt man von der gesamten Summe nur 
den oder die Summanden, in dem 0 V ent- 
halten ist. Alle anderen Summanden stel- 
len Konstanten dar und die Ableitung 
eines konstanten Summanden ist Null (s. 
Rechenregeln). 



Grundregeln des D ifferenzierens 

Summenregel: (u + v)’ = u’ + v’ 
Produktregel: (u v)’ = u v’ + u’ v 
Konstanter Summand: (c + u’) = u’ 
Konstanter Faktor: (c u)’ = c u’ 

Quotientenregel: 

Kettenregel : Ist y = f (u) und u = g(x) 

d v 

so ist^- = f (u) • g' (x) 




Funktion 



x 

*Og(X; 



Ableitung 



n ■ x 
x 

X 



Es ergibt sich fiir die erste partielle 
Ableitung nach 0 V der folgende Ausdruck: 



(2) 



d log L _ _ 

ae v v 



^+(k-r v ) T ^ 7 (-i). 



Hier benotigt man wiederum die Re- 
chenregeln des Differenzierens. Insbeson- 
dere muB man beachten, daB die Ableitung 
des Logarithmus einer Unbekannten gleich 



1 durch diese Unbekannte ist. Der letzte 
Koeffizient (-1) stellt die innere Ableitung 
von (1-0 V ) dar (s. die sog. Kettenregel). 



Setzt man Gleichung (2) gleich Null und 
bringt einen der beiden Summanden auf 
die andere Seite, so erhalt man die Glei- 
chung 




k - r v 

1^07 



die sich folgendemiaBen auflosen laBt 
(4) r v - r v 0 v = k 0 V - r v 0 v 




Somit ist die relative Haufigkeit geloster 

r v 

Items, der ML-Schatzer fur den Fahig- 
keitsparameter 0 V . 

Dieses Resultat ist nicht iiberraschend, 
man hatte es auch intuitiv erwartet: Die 
relative Anzahl geloster Aufgaben in 
einem Test ist ein direktes MaB fur die 
Personenfahigkeit, wenn alle Items als 
gleich schwierig angenonmien werden. 

Gleichung (4) beschreibt, genau genom- 
men, nur eine Schatzgleichung, namlich 
die fiir den Parameter der v-ten Person, 
nach dem differenziert wurde. Da aber die 
Schatzgleichungen fiir alle anderen Perso- 
nen genauso aussehen, kann man Glei- 
chung (4) auch als System von N Glei- 
chungen auffassen, die sich fiir v = 1 bis 
v = N ergeben. 

Das Untypische an dieser Ableitung der 
Fikelihoodfunktion des Binomialmodells 
liegt darin, daB sie zu expliziten Glei- 
chungen fiir die Schatzung der Modellpa- 
rameter gefiihrt hat. Dies ist bei komple- 
xeren Modellen nicht mehr der Fall, was 
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oft schon daran liegt, daB die ersten 
partiellen Ableitungen Funktionen mehre- 
rer Unbekannter sind und nicht nur einer, 
wie im Fall des Binomialmodells. 



Parameter im dichotomen Rasch-Modell. 
Kapitel 4.2.2 behandelt ein Schatzverfah- 
ren zur Bestinmiung der Modellparameter 
der dichotomen Klassenanalyse. 



In solchen Fallen benotigt man sogenannte 
iterative Verfahren. ‘Iterativ’ bedeutet, 
‘wicderkehrcnd’ oder ‘wiederholend' und 
meint, daB man dieselben Rechenschritte 
inmier wieder durchfiihrt, bis man sich 
einer Losung angenahert hat. Iterative Ver- 
fahren kann man z.B. anwenden, wenn 
nach dem Auflosen einer Gleichung nach 
einer Unbekannten rechts vom Gleich- 
heitszeichen weitere Unbekannte stehen. 
Setzt man dann fur die Unbekannten rechts 
vom Gleichheitszeichen Nahemngswerte 
ein, erhalt man fur die Unbekannte links 
vom Gleichheitszeichen einen ‘besseren’ 
Naherungswert. Diese neuen Naherungs- 
werte kann man wiederum in andere 
Gleichungen einsetzen, um damit neue 
Nahemngswerte fur die anderen Unbe- 
kannten zu berechnen. 



Diese beiden Schatzverfahren sind jeweils 
typisch fur quantitative Modelle und Klas- 
senmodelle. Die Schatzmethoden fur kom- 
plexere Testmodelle bauen entweder auf 
diesem Verfahren auf, indern sie den Algo- 
rithmus um zusatzliche Bestandteile erwei- 
tern, oder sie bedienen sich eines modifi- 
zierten Ansatzes, um bessere statistische 
Eigenschaften der Schatzer zu erreichen. 
Im folgenden werden weder solche Erwei- 
terungen noch alternative Ansatze im 
Detail dargestellt, da sie fur das Verstand- 
nis der Testtheorie und ihrer Modelle nicht 
von entscheidender Bedeutung sind. 

4.2.1 Parameterschatzung ftir 
das dichotome Rasch-Modell 



Unter bestimmten Bedingungen konver- 
giert ein solches iteratives Verfahren ge- 
gen die richtigen Parameterwerte. Konver- 
gieren heiBt, daB jeder neue Naherungs- 
wert ein Stiickchen dichter am richtigen 
Wert liegt als der vorige. Auf diese Weise 
erhalt man in der Regel keinen endgiil- 
tigen, bis auf die letzte Kommastelle fest- 
gelegten Wert, sondem nur eine mehr oder 
weniger genaue Schatzung. Die Genauig- 
keit der Schdtzwerte hangt unter anderem 
davon ab, wie weit man das iterative 
Verfahren treibt, d.h. wann man es ab- 
bricht und sich mit der erreichten Genauig- 
keit zufrieden gibt. 



Zur Schatzung der Parameter des Rasch- 
Modells gibt es mehrere Verfahren, die 
zum groBen Teil zu identischen Ergebnis- 
sen frihren. In diesem Kapitel wird zu- 
nachst die unbedingte Maximum-Likeli- 
hood (UML) Methode dargestellt, da sie 
relativ leicht nachvollzogen werden kann 
und das Prinzip von ML-Schatzungen gut 
verdeutlicht. Im AnschluB daran wird der 
Ansatz der bedingten ML-Methode zur 
Schatzung der Itemparameter und ein ge- 
naueres Verfahren zur Schatzung der Per- 
sonenparameter dargestellt. 

Die Likelihoodfunktion des Rasch-Mo- 
dells, 



In den beiden folgenden Unterkapiteln 
werden zwei sc hr unterschiedliche iterative 
Verfahren beschrieben. Kapitel 4.2.1 be- 
handelt ein Verfahren zur Schatzung der 



N k 

a) L=nn 



v=l i=l 



exp(x vi (e v - a,)) 
l + exp(0 v -Oj) 
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wurde in Kapitel 3.1. 1.2.2 in den folgen- 
den Ausdmck umgewandelt (vgl. Formel 
8 ): 



r N k ' 

exp X r v e v ~ S n i°i 

(2) L = — - 

L N k 

n n (l + exp(e v - a,)) 

V = 1 i = l 



der sich dadurch auszeichnet, daB von den 
beobachteten Testdaten lediglich die Rand- 
summen in die Funktion eingehen. Hierbei 
handelt es sich um r v , die Anzahl der Items 
die eine Person v gelost hat, und n is die 
Anzahl der richtigen Itemantworten bei 
Item i. Im Nenner dieses Ausdmcks tau- 
chen die beobachteten Testdaten gar nicht 
auf. 



Bevor die ersten partiellen Ableitungen ge- 
bildet werden, wird die Funktion logarith- 
miert, um die multiplicative Verkniipfung 
in eine additive Verkniipfung umzuwan- 
deln: 

(3) log L = 

N k N k 

X r v6 v -X njOj-X X log(l + exp(9 v -a,)). 

v-1 i=l v=l i=l 



Da der Logarithmus die inverse Funktion 
der Exponentialfunktion ist, d.h. 

log(exp (x)) = x, 

bleiben beim Logarithmieren vom Zahler 
lediglich die Exponenten iibrig. Im Nenner 
heben sich die Exponentialfunktion und 
der Logarithmus leider nicht gegenseitig 
auf, da der Logarithmus einer Summe 
nicht weiter aufgeschliisselt werden kann. 



Die erste partielle Ableitung nach einem 
Personenparameter 9 V lautet dann: 



d log L 

TeT *'>“,5 



1 +exi 



S5“^T‘ p(e - 



Vom ersten Summanden in (3) bleibt 
lediglich der Koeffizient r v desjenigen 0 
iibrig, nach dem differenziert wurde. Der 
zweite Summand ist eine Konstante, deren 
Ableitung Null ist. Vom dritten Term 
bleibt nur ein Summenzeichen erhalten, da 
sich die Summe iiber die Personen auf 
jenen Summanden reduziert, der 0 V enthalt 
(alle anderen Sunmianden sind Konstan- 
ten). Auf die einzelnen Sunmianden muB 
die Kettenregel angewendet werden, wobei 
die Ableitung der logarithmischen und der 
Exponentialfunktion benbtigt werden (s.o. 
Grundregeln des Differenzierens). 



Setzt man diese Gleichung gleich Null und 
lost sie nach r v auf, so erhalt man die fol- 
gende Gleichung 



( 5 ) 




exp(0 v - aj) 

1 + exp(0 v - CTj) 



als Schatzgleichung fur den Personenpa- 
rameter 0 V . Die Gleichung laBt sich nicht 
nach 9 V auflosen. Fiir jedes andere 0 erhalt 
man eine Gleichung, die genauso aussieht, 
so daB man Gleichung (5) auch als 
Gleichungssystem ansehen kann, das man 
zur Schatzung der Personenparameter 
nutzen kann. 



In analoger Weise werden die ersten par- 
tiellen Ableitungen nach den Itempara- 
metern 3i gebildet, was zu folgendem Aus- 
druck fiihrt: 



( 6 ) 



d log L _ 
9<Tj - 






Die Ableitung ist analog zu der von Glei- 
chung (4). Der auffallende Unterschied ist 
der Koeffizient (-1) ganz am Ende des 



(4) 
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zweiten Summanden. Er kommt daher, daB 
die Kettenregel in diesem Fall zweimal an- 
gewendet werden muB, d.h. die innere Ab- 
leitung der Exponentialfunktion ist nicht 
+1, wie im Fall des Fahigkeitsparameters, 
sondern -1, da G; ein negativer Summand 
ist. 



Wiederum ergibt sich zur Schatzung der 
Itemparameter ein Gleichungssystem: 



(7) 




exp(0 v - a,) 
l + exp(0 v - a,) ' 



Die Gleichungssysteme (5) und (7) lassen 
sich kiirzer selirciben, wenn man fiir den 
logistischen Quotienten p vi selircibt, die 
Losu ngs wall rse hci n I ichkeit von Person v 
bei Item i: 



teres ersichtlich ist, warum es funktioniert. 
Ein anschlieBendes Rechenbeispiel soil 
illustrieren, dafi es funktioniert. 



Gleichung (5) laBt sich folgendemiaBen 
nach dem zu schatzenden Parameter 9 V 
auflosen, wobei hier nicht eine ‘echte’ Auf- 
losung gemeint ist, denn der zu schatzende 
Parameter 0 V steht weiterhin auf der rech- 
ten Seite der Gleichung: 



(8) exp(§ v ) 



fv 

y ex p(~ g i) 

“1 l + exp(0 v -Oj) 



oder logarithmiert: 

k 

(9) 9 V = log(r v )-log£ 
i=l 



exp(-gj) 

1 +exp(0 v -gj) 



k 

(5' ) r v = £ Pvi 
i=l 

N 

(7’ ) nj = X Pvi 

V — 1 



In dieser Selircibwcise wird deutlich, daB 
die Modellparameter solche Welle anneh- 
men mlissen, daB die Summenscores r v 
und n ; in etwa ilircn Erwartungen anhand 
der Modellgleichung entsprechen. D.h. der 
Summenscore einer Person, r v , ist in Glei- 
chung (5’) gleich der Summe der Losungs- 
wahrscheinlichkeiten iiber alle Items, was 
dem theoretisch erwarteten Summenscore 
entspricht. Analoges gilt fiir die Glei- 
chungen (7’). 

Die ersten partiellen Ableitungen full re n 
also zu sehr plausiblen Ergebnissen, je- 
doch ist bislang nicht klar, wie man an- 
hand dieser Gleichungen die Modellpara- 
meter praktisch schatzt. Hierzu wird im 
folgenden ein einf aches Verfahren ange- 
geben, von dem allerdings nicht ohne wei- 



Das 0 auf der linken Seite hat jetzt ein 
Dach erhalten, um anzudeuten, daB man 
auf der linken Seite der Gleichung einen 
besseren Schdtzer fur 0 V erhalt, wenn man 
auf der rechten Seite eine vorlaufige Schat- 
zung fiir 0 V und fiir alle o, einsetzt. 



Entsprechend kann Gleichung (7) folgen- 
dermaBen nach <jj ‘aufgelost’ werden: 

(10) o,=-l»E(n i ) + lo«I | + eIp(6i _ ( , i) . 



was das entsprechende Gleichungssystem 
zur Schatzung der Itemparameter ergibt. 

Mit diesem Gleichungssystem, bestehend 
aus den Gleichungen (9) und (10), laBt 
sich nun ein einfaches iteratives Verfahren 
durchfiihren, das tatsachlich konvergiert. 
Man muB lediglich beliebige Startwerte, 
z.B. alle Parameter gleich Null, auf der 
rechten Seite dieser Gleichungen einsetzen 
und man erhalt erste Schatzungen der Mo- 
dellparamater 0 und a. Setzt man diese 
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Schatzungen wiederum rechts in die Glei- 
chungen ein, so erhalt man verbesserte 
Schatzwerte, d.h. solche, die dichter an 
den walircn Parameterwerten liegen. 

Da es fiir eine Beispielrechnung miihsam 
ist, diese Prozedur auch nur iiber ein paar 
Iterationen per Hand zu berechnen, wird 
im folgenden ein kleines Computerpro- 
gramm beschrieben, das genau diese Rech- 
nung durchfiihrt. 



Ein Programm zur P arameterschatzung 

Das folgende Fortran-programm enthalt 
die minimalen Rechenschritte zur Parame- 
terschatzung nach dem zuvor beschrie- 
benen Verfaliren. Es wurden nur einfache 
Befehle verwendet, so dab die Programm- 
sehritte mit geringen Kenntnissen einer 
Programmiersprache nachvollzogen wer- 
den konnen. Die einzelnen Programm- 
schritte werden in kleiner Schrift erlautert. 

Deklarierung von zwei Datenfeldern fur ganzzahli- 
ge Welle (integer) und gebrochene Zahlen (real). 

integer nr(4),ni(5) 
real theta(4),sigma(5) 

Belegung der integer-Felder mit den Randsummen 
des KJFT-Dateibeispiels. 

ni( 1)= 157 

ni(2)= 1 37 

ni(3)=105 

ni(4)=75 

ni(5)=56 

nr( 1 )=48 

nr(2)=46 

nr(3)=50 

nr(4)=60 

Es beginnt die Iterationsschleife: alle Befehle bis 
zur Zeile mit der Nummer 5 werden 10-mal durch- 
laufen. 

do 5 iter=l,10 
sum=0.0 

Die nachsten 4 Zeilen sorgen flir die Summennor- 
nierung der Items. 



do 6 i=l,5 

6 sum=sum+sigma(i) 
do 7 i=l,5 

7 sigma(i)=sigma(i)-sum/5.0 

Die Schleife bis zur Zeile Nr. 1 berechnet die Per 
sonenparameter nach Gleichung (9) fiir r = 1 bi 
r = 4 (der Laufindex j steht fiir r). 

do 1 j=l,4 
sum=0.0 
do 2 i=l,5 

2 sum=sum+exp(0.0-Sigma(i))/ 

( 1 .0+exp(theta(j)-Sigma(i))) 

1 theta(j)=alog(j)-alog(sum) 

In dieser Schleife werden die Itemparameter nach 
Gleichung (10) berechnet. 

do 3 i=l,5 
sum=0.0 
do 4 j=l,4 

4 sum=sum+(nr(i)*exp(theta(j)))/ 

( 1 .0+exp(theta(j)-Sigma(i))) 

3 sigma(i)=alog(sum)-alog(ni(i)) 

Zeile 5 druckt die Schatzungen aller Parameter il 
jedem Iterationsschritt aus. 

5 write(2,100)(theta(j),j=l,4), 

(sigma(i),i=l,5) 

100 format(9f6.2) 
end 



Das Computerprogramm wurde fiir das 
Datenbeispiel fiir dichotome Itemantwor- 
ten aus Kapitel 3.1 geschrieben (‘KFT- 
Daten’). Um die Parameter berechnen zu 
konnen, benotigt man lediglich die Rand- 
summen der Datenmatrix, d.h. die n r Wer- 
te, und die Haufigkeiten der Summen- 
scores, n r . Hier interessieren die Haufig- 
keiten des minimalen und maximalen 
Scores nicht, da die Personenparamcter fiir 
die Scores r = 0 und r = k mit diesem 
Algorithmus, der unbedingten ML-Metho- 
de, nicht geschatzt werden konnen. Die 
Schatzungen fiir diese Parameter wiirden 
in der Iterationsschleife gegen -<» und 
+oo streben. Entsprechend sind nur 4 n r - 
Werte im Computeiprogramm definiert. 
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Das Programm rechnet 10 Iterationen 
durch. Zu Beginn jeder Iteration werden 
die Itemparameter CS summennormiert, da- 
nach werden die Berechnungen gem a 6 
Formel (9) und (10) durchgefiihrt. 

Im Gegensatz zur Sehrcihweise bei For- 
mel (10), in der beim zweiten Summanden 
iiber alle Personen addiert wird, wird im 
Computerprogramm lediglich iiber alle 
unterschiedlichen Summenscores j addiert. 
Daher sind die Summanden in der Schleife 
Nr. 4 noch jeweils mit der Anzahl der Per- 
sonen mit diesem Score, nr(j), zu multi- 
plizieren. 

LaBt man das Progranmi laufen, so erhalt 
man die folgenden Schatzungen fiir die 
Parameter des dichotomen Rasch-Modells: 



0i 


02 


03 


04 


Iteration 


-0.92 


-0.22 


0.18 


0.47 


1 


-1.29 


-0.33 


0.28 


0.74 


2 


-1.44 


-0.39 


0.34 


0.92 


3 


-1.51 


-0.43 


0.38 


1.06 


4 


-1.55 


-0.45 


0.41 


1.17 


5 


1.58 


-0.46 


0.43 


1.26 


6 


-1.60 


-0.48 


0.45 


1.33 


7 


-1.62 


-0.48 


0.46 


1.39 


8 


-1.63 


-0.49 


0.47 


1.44 


9 


-1.65 


-0.49 


0.48 


1.48 
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C, C ? G 4 G 5 Iteration 



-0.47 


-0.33 


-0.07 


0.27 


0.56 


1 


-0.74 


-0.52 


-0.10 


0.42 


0.84 


2 


-0.91 


-0.62 


-0.09 


0.52 


1.00 


3 


-1.03 


-0.69 


-0.08 


0.59 


1.09 


4 


-1.11 


-0.73 


-0.06 


0.64 


1.16 


5 


-1.18 


-0.76 


-0.05 


0.69 


1.21 


6 


-1.23 


-0.78 


-0.03 


0.72 


1.24 


7 


-1.27 


-0.79 


-0.02 


0.74 


1.27 


8 


-1.31 


-0.81 


-0.01 


0.76 


1.30 


9 


-1.34 


-0.81 


0.00 


0.78 


1.32 
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waren Null fiir alle Parameter und es zeigt 
sich, daB die Parameter bereits nach der 
ersten Iteration in die richtige Richtung 
auseinandergehen. Die Veranderungen der 
Schiitzwerte werden von Iteration zu 
Iteration kleiner, so daB man vermuten 
kann, daB die Werte der zehnten Iteration 
schon relativ dicht an den endgiiltigen 
Parameterwerten liegen. 

Vergleicht man diese Schatzwerte fiir die 
Itemparameter mit den in Kapitel 3.1. 1.2.2 
angegebenen, so fallen Unterschiede auf: 
Die hier angegebenen Werte sind etwas 
extremer, d.h. die positiven Parameter sind 
noch groBer und die negativen noch klei- 
ner. Diese Unterschiede sind systematised 
Sie beruhen darauf, daB der hier 
dargestellte einfache Schatzalgorithmus 
nur 'richtige' ML-Schatzer liefert, wenn 
man relativ grofie Item- und Personen- 
stichproben hat. Man sagt die Schatzer 
sind nur dann konsistent, wenn N und k 
gegen 00 gehen (also fiir wachsende 
Personen- und Itemanzahlen). Dies ist im 
vorliegenden Datenbeispiel natiirlich nicht 
gegeben, da es nur wenige Items umfaBt. 



Konsistente Schatzer 

Man bezeichnet Schatzer dann als konsi- 
stent, wenn sich die Schatzwerte mit 
wachsender Anzahl von Beobachtungen 
dem wahren Wert des Parameters anna- 
hern. Konsistent in diesem Sinne sind die 
Schatzer im zuvor dargestellten Verfahren 
sehr wohl, nur daB ‘wachsende Anzahl von 
Beobachtungen' hier heiBt, daB Personen- 
anzahl N und Itemanzahl k groB werden 
miissen, damit die Schatzer sich dem wah- 
ren Parameterwert annahern. Damit ist 
dieses Verfahren aber fiir Tests mit weni- 
gen Items problematisch. 



Die Startwerte fiir diese Beispielrechnung 
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Man kann den bias (das ist der Betrag, um 
den der Erwartungswert des Schatzers 
vom wahrcn Wert abweicht) in diesem 
Fall sogar bestimmen: Die Schatzer sind 

p 

namlich in etwa um den Faktor J zu 

groB, d.h. man kann sie korrigieren, in- 
dem man die Schatzwerte mit dem rezi- 
k - 1 

proken Wert, also — ^ — multipliziert. Wie 

man sieht, ist diese Korrektur fiir groBes k 
Vernachlassigbar, da der Faktor gegen 1 
strebt. 

Tm Datenbeispiel sind die Itemparameter- 
schatzungen also mit 4/5 = 0.8 zu 
multiplizieren, was die Werte ergibt: 

G, = -1 .07, o 2 = -0.65, g 3 = 0.0, 
g 4 = 0.62 und g 5 = 1.04. 

Obwohl diese Werte schon dichter an den 
irn Kapitel 3.1. 1.2.2 angegebenen liegen, 
wird auch deutlich, daB diese Korrektur 
den bias nicht ‘beseitigt’ sondern nur eine 
Verschiebung in der richtigen Richtung 
und GroBenordnung bewirkt. 

Die hier dargestellte Methode der Parame- 
terschatzung ist die sogenannte unbedingte 
MF-Methode, wahrend in ‘groBen’ Com- 
puterprogrammen die sogenannte bedingte 
MF-Methode verwendet wird. Die in Ka- 
pitel 3.1. 1.2.2 angegebenen Parameter- 
schatzungen wurden mittels der bedingten 
MF-Methode errechnet. 



Bedingte und unbedingte M L-M ethode 

Die hier dargestellte Parameterschatzme- 
thode basiert auf der in den Gleichungen 
(1) und (2) angegebenen Fikelihoodfunk- 
tion. Diese Fikelihood ist eine Funktion 
sowohl der Itemparameter als auch der Per- 
sonenparameter. 



Bei Rasch-Modellen besteht auch die 
Moglichkeit eine Fikelihoodfunktion zu 
definieren, in der die Personenparameter 
nicht enthalten sind (vgl. Kap. 3. 1.1. 2.2). 
Es handelt sich hierbei um die Wahr- 
scheinlichkeit der Testdaten unter der 
Bedingung der beobachteten Scorever- 
teilung. Die Schatzungen der itempara- 
meter, die auf dieser Fikelihoodfunktion 
beruhen, nennt man daher bedingte ML- 
Schdtzungen. Die Personenparameter 
lassen sich auf diese Art und Weise nicht 
schatzen. 

In Abgrenzung zu dieser bedingten 
Methode wird die Parameterschatzung 
nach der ‘normalen’ Fikelihoodfunktion 
(Gleichung (1) und (2)) als unbedingte 
MF-Methode bezeichnet. 



Da die bedingte MF-Methode von der 
Schatzgenauigkeit her eindeutig die iiber- 
legenere ist, soli im folgenden zumindest 
der Ansatz der bedingten MF-Methode 
dargestellt werden. Ein iteratives Verfah- 
ren zur Fosung der resultierenden Glei- 
chungen wird jedoch nicht vorgestellt, da 
diese Verfahren etwas komphzierter sind 
und melm mathematische Vorkenntnisse 
erfordem. Das Prinzip, daB auch hier das 
Maximum der Fikelihoodfunktion gesucht 
wird, bleibt jedoch dasselbe. 

Wahrend die unbedingte Fikelihoodfunk- 
tion dem Produkt iiber alle Patternwahr- 
scheinlichkeiten entspricht: 

(11) uL = IIpUv)< 

V=1 

wobei uF fiir unbedingte Fikelihood steht, 
ist die bedingte Fikelihoodfunktion defi- 
niert als das Produkt iiber alle Pattem- 
Walnscheinlichkeiten unter der Bedingung 
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des zum jeweiligen Pattern gehorenden 
Summenwertes r: 

(12) cL = J~J p(x v |r) , 

V— 1 



N N 

(15) mL = n P (o-n p(x v i r v) 

V=1 V=1 

N 

= n p( r v)-cL. 

V— 1 



wobei cL fur conditional (bedingte) Like- 
lihood steht. 

In Kapitel 3.1. 1.2.2 wurde bereits die 
bedingte Pattern wahrsehcin I iehkeit p(x|r) 
behandelt und dargestellt, dab sie allein 
eine Funktion der Itcmparameter ist (vgl. 
dort Formel ( 15)): 



(13) p(x v l r ) 



exp 



k 5 
S x i a i 



V i=i J 

y r (exp(-a)) 



Im Nenner steht die symmetrische Grund- 
funktion r-ter Ordnung, eine Funktion der 
Itemparameter (s. Kap. 3.1. 1.2.2). 

In diesem Kapitel wurde die bedingte Pat- 
ternwahrsehcinl iehkeit auch benutzt, um 
eine dritte Likelihoodfunktion, die margi- 
nale Likelihood (niL), zu definieren: 

(14) mL= H p( r v)' p( x v | r v)- 

V— 1 

Der Summenscore r erhalt in dieser Glei- 
chung den Index v, um deutlich zu 
machen, dab es der Score der v-ten Person 
ist. 



Vergleicht man die bedingte (12) und die 
marginale Likelihood (14), so wird deut- 
lich, dab die cL ein Teil der mL ist. 
Schreibt man das Produktzeichen in (14) 
getrennt vor jeden Faktor, so ergibt sich: 



Auch das verbleibende Produkt in (15) 
kann zusanmiengefabt werden als Produkt 
iiber r, wobei jeder Faktor mit der Hau- 
figkeit von r, n r , potenziert werden mub, 

k 

(15’) mL= n P(0" r cL. 

r=0 



Fur die Parameterschatzung ist es egal, ob 
man die mL oder cL maximiert: beirn Lo- 
garithmieren und particllcn Differenzieren 
fallt der erste Teil der mL, das Produkt 
aller S co re wa li rsc lie i n I i c h ke i te n , ohnedies 
weg, da die Itemparameter in ihm nicht 
vorkommen. Die Schatzgleichungen und 
die Schatzungen der Itemparameter, die 
man durch die Maximierung der mL und 
der cL erhalt, sind identisch. 

Gegeniiber den Schatzem, die man durch 
die zuvor dargestellte Maximierung der uL 
erhalt, haben die mL- und CL-Schatzer der 
Itemparameter einen entscheidenden Vor- 
teil: sie sind auch bei kleiner Itemanzahl 
konsistent. Das heibt, es gibt keine syste- 
matische Abweichung des Schatzwertes 
vom wahren Parameterwert. 

Das tibliche Vorgehen bei der Parameter- 
schatzung fur Rasch-Modelle besteht du- 
ller darin, zunachst die Itemparameter 
nach der bedingten ML-Methode zu schat- 
zen, um anschliefiend die Personenpara- 
meter zu schatzen. 
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Aber auch fiir die Schatzung der Personen- 
parameter hat sich gezeigt, daB die Schatz- 
gleichungen (9) der unbedingten ML-Me- 
thode nicht optimal sind. Zum einen haben 
sie den gravierenden Nachteil, daB fiir Per- 
sonen, die alle oder kein Item mit ' 1 ’ be- 
antwortet haben, kein Eigenschaftspara- 
meter geschatzt werden kann. Zum ande- 
ren werden auch die Parameter fiir die 
Scores zwischen 0 und k zu extrem ge- 
schatzt, d.h. die negativen zu klein und die 
positiven zu groB. 



der 0. Wall rend man fiir die unbedingte 
Likelihood (16) eines Antwortpatterns den 
Ausdruck 



I exp(r v e v ) 

( 18 ) p(x v |e,ci)=-j 

fl (l +exp(6 v — CTj )) 



•exp 



“Z x i CT i 

V i=i 



erhalt (s.o. Gleichung (2)), ist die Bayes- 
Wahrscheinlichkeit (17) zu einem Aus- 
druck proportional (= ist das Proportiona- 
litatszeichen), in dem die Dichtefunktion 
der Personenvariable f(0) auftaucht: 



Seim viel bessere Schatzer fiir die Perso- 
nenparameter liefert die sog. weighted 
(gewichtete) ML-Methode. Diese Methode 
beruht auf dem sog. Bayes-Ansatz der 
Parameterschatzung. Hierbei wird nicht 
wie bei der ML-Methode die Wahrschein- 
lichkeit der Daten unter der Bedingung der 
Modellparameter maximiert, 

(16) p(x|0,a)— > max, 

sondern die Wahrscheinlichkeit der Perso- 
nenparameter unter der Bedingung der 
Daten und der Itemparameter: 

(17) p(0|x,a) — > max. 

Diese Methode ist nach Bayes benannt, 
weil sich mit Hilfe des Satzes von Bayes 
die Ereignisse vor und hinter dem Bedin- 
gungsstrich vertauschen lassen (s. Kap 
3. 1.2.2 iiber die Klassenanalyse). Auch die 
Maximiemng dieser Wahrscheinlichkeit 
hat ihre Logik: sollen doch diejenigen 
Parameterwerte fiir die Personen emiittelt 
werden, die bei den gegebenen Daten am 
wahrscheinlichsten sind. 

Der Bayes-Ansatz hat jedoch den 
Nachteil, daB man irgendeine Annahme 
iiber die Art der Verteilung derjenigen 
Parameter treffen muB, deren Wahrschein- 
lichkeit man maximieren will, hier also 



(19) p(e|x v ,o) = 



exp(r v 9 v ) 

k 

II (l + exp(0 v - CTj )) 

i=l 



■f(0). 



Worm (1989) setzt fiir f(0) die Wurzel aus 
der Informationsfunktion ein (s. Kap. 4.4): 

(20) f(0) = 7l(0) 

k , . 

— Pvi — Pvi j> 
i=l 

eine Funktion, in der extrem kleine oder 
groBe Werte fiir 0 sehr unwahrscheinlich 
sind. Diese Funktion verhindert, daB die 
Schatzwerte fiir 0 zu stark auseinander- 
gehen und fiir r = 0 und r = k gegen - °° 
bzw. +°o streben. 



Logarithmieren und Differenzieren von 
(19) ergibt nach mehreren Zwischenschrit- 
ten 



(21) 



3log(p(e|x,o)) 

30 v 



^ X PviO Pvi ) ( 1 ^Pvi) 

= r v - X Pvi + — k 

i=1 p vi (l-p vi ) 



Im Unterschied zur Ableitung der unbe- 
dingten Likelihood (vgl. (4)) tritt hier 




308 



4. Parameterschatzung 



noch ein dritter Summand auf, der die 
Rolle eines Korrekturterms spielt. Setzt 
man Gleichung (21) gleich Null und lost 
sie folgendermaBen auf (vgl. (5’)) 

X Pvi(l - Pvi)(! - 2 Pvi) k 
(22) r v + — k = X Pvi > 

2XPv,(l-Pvi) i=1 
1=1 

so laBt sich die Funktionsweise dieses 
KoiTekturterms analysieren. Wahrend der 
Nenner nur positiv werden kann, wird der 
Zahler in Abhangigkeit vom dritten Fak- 
tor, (1-2 p vi ), mal positiv und mal negativ: 

1st p vi < 0.5, so ist (i-2 p vi ) positiv. 

1st p vi > 0.5, so ist (1-2 p vi ) negativ. 

Das bedeutet, kleine Scores r werden 
etwas vergrofiert, grofie Scores etwas 
verkleinert. Genau dieser Effekt ermog- 
licht auch die Schatzung von Parametem 
fiir den Score r = 0 und r = k: durch den 
Korrekturterm in Schatzgleichung (22) 
brauchen die erwarteten Scores, ^ p vi , 

i 

nicht ‘ganz’ gleich 0 bzw. k zu werden, 
was nur mit 0 = - °o bzw. 0 = +oo eiTeicht 
ware. 

Diese Kombination von beclingten ML- 
Schatzern fiir die Itemparameter und ge- 
wichteten ML-Schatzern fiir die Personen- 
parameter ist auch bei alien mehrkate- 
goriellen Rasch-Modellen (vgl. Kap. 3.2 
und 3.3), den Itemkomponentenmodellen 
(vgl. Kap. 3.4) und den Rasch-Modellen 
zur Veranderungsmessung (vgl. Kap. 3.5) 
moglich. 

Das ‘Herauskonditionieren’ der Personen- 
parameter als Voraussetzung dieses Ver- 
fa lire ns ist jedoch nur bei Rasch-Modellen 
moglich und z.B. nicht bei mehrparametri- 



gen Item-response-Modellen (vgl. Kap. 
3. 1.1. 2.3). 

Es gibt einige Algorithmen, die Schatz- 
werte liefern, welche aquivalent zu den 
bedingten ML-Schatzern, also auch fiir 
kleines k konsistent sind. Hierzu gehort 
die Methode der paarweisen Parameter- 
schatzung (pairwise), die auch als Symme- 
trisierungsverfahren bezeichnet wird. Die- 
se Methode hat den Vorteil, daB sie pro- 
blemlos mit sog. missing data, also feh- 
lenden Itemantworten umgehen kann. 
Hierzu gehoren auch die marginalen ML- 
Methoden, die zur Schatzung der Para- 
meter die marginale Likelihoodfunktion 
(15) maximieren. Dabei wird oft fiir das 
Produkt der Scorewahrscheinlichkeiten 
eine bestinmite Verteilungsfunktion der 
Personenvariablc 0, z.B. eine Normalver- 
teilung eingesetzt. 



Literatur 

Einen sehr allgemeinen Algorithmus fiir 
die Suche der Maxima von Likelihood- 
funktionen stellt die Newton-Raphson- 
Methode dar (s. Andersen 1980). 
Molenaar (1995) gibt einen Uberblick 
iiber die Schatzung der Itemparameter ini 
Rasch-Modell. Die Eigenschaften beding- 
ter ML-Schatzer hat Andersen (1973 a) 
systematisch untersucht. Gustaffson 
(1980a) beschreibt Verfahren zur rekursi- 
ven Berechnung der symmetrischen 
Grundfunktionen. Der Bayes-Ansatz zur 
Schatzung der Personenparameter geht auf 
Warm (1989) zuriick. Hoijtink & 
Boomsma (1995) vergleichen diese 
Methode mit anderen Schatzmethoden fiir 
die Personenparameter. Die marginale 
ML-Methode beschreibt Thissen (1982) 
und Wright und Masters (1982) stellen 
mehrere Parameterschatzmethoden fiir 
ordinale Rasch-Modelle vergleichend vor. 
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Fischer (1974) geht auch auf die Para- 
meterschatzung beim mehrdimensionalen, 
mehrkategoriellen Rasch-Modell ein. Die 
Parameterschatzung bei mehrparametrigen 
item-response Modellen behandelt Baker 
(1992). 



U bungsaufgaben 

1. Das Programm WINMIRA gibt als 
‘likelihood’ den logarithmierten Wert 
der marginalen Likelihoodfunktion 
(15) aus. Berechnen Sie anhand der 
Ergebnisse den Wert der beclingten 
Likelihoodfunktion fur das KFI-Da- 
tenbeispiel. 

2. Berechnen Sie mit WINMIRA die 
Itemparameter der KFT-Daten mit nur 
3 Iterationssehritten. Wie stark weicher 
die Likelihood und die Itemparameter 
von den endgiiltigen Werten ab? 



4.2.2 Parameterschatzung ftir 
die dichotome Klassenanalyse 

Die Parameterschatzung fur klassifizieren- 
de Testmodelle gait lange Zeit als recht 
schwierig und wurde erst in den 70-er 
Jalircn fiir groBere Datensatze technisch 
durchfiihrbar. Obwohl inzwischen sehr 
viele verschiedene Algorithmen einsetzbar 
sind, hat sich doch eine Methode be- 
sonders bewahrt, namlich der sogenannte 
EM-Algorithmus. Der Name stellt eine 
Abkiirzung dar, wobei E fiir Erwartungs- 
werte und M fiir Maximierung steht. Die 
Bedeutung dieser Begriffe wird im folgen- 
den deutlich werden. 

Der EM-Algorithmus basiert nicht auf den 
partiellen Ableitungen der Likelihood- 
funktion des jeweiligen Testmodells, son- 
dern er stellt eine recht einfache Iterations- 
vorschrift dar, fiir die man lediglich die 
Modellgleichungen benotigt. Uber diesen 
Algorithmus ist nachgewiesen, daB mit 
jedem Iterationsschritt Parameterwerte er- 
halten werden, fiir die die Likelihood- 
funktion einen hoheren Wert annimmt, als 
im vorigen Iterationsschritt. Das heiBt 
nichts anderes, als daB der Algorithmus 
stets ein Maximum der Likelihoodfunk- 
tion findet (auf Ausnahmen wird spater 
eingegangen). 

Dieser Algorithmus ist zudem so flexibel, 
daB alle in Kapitel 3 behandelten probabi- 
listischen Modelle mit qualitativer Perso- 
nenvariable mit ihm berechnet werden 
konnen. Im folgenden ist er fiir den ein- 
fachsten Pall dargestellt, namlich fiir die 
Klassenanalyse fiir dichotome Daten ohne 
jede Parameterrestriktion (s. Kap. 3. 1.2.2). 

Die Idee des EM-Algorithmus besteht dar- 
in, die beobachteten Haufigkeiten der Ant- 
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Wortmuster auf die latenten Klassen aufzu- 
splitten. Wurde ein bestimmtes Antwort- 
muster z.B. fiinfmal beobachtet, d.h. von 
fiinf Personen produziert, so stellt sich die 
Frage, welcher Anteil dieser Haufigkeit 
auf welche latente Klasse entfallt. 1st ein 
Pattern typisch fur die erste latente Klasse, 
so wurde man es dort z.B. mit einer 
Haufigkeit von 3.8 erwarten, in der zwei- 
ten Klasse, vielleicht mit einer Haufigkeit 
von 0.9 und in der dritten Klasse nur mit 
einer Haufigkeit von 0.3. 



Die Aufsplittung der 




P atternhaufigkeiten 








Haufigkeit 


Item 


f 


in Klassen 


1 2 3 4 5 6 7 




1 


2 


3 


0 110 10 1 


5 


3.8 


0.9 


0.3 


1 0 0 0 1 1 1 


1 


0.1 


0.8 


0.1 


11110 11 


15 


11.2 


1.2 


2.6 


0 0 1 0 0 1 0 


3 


0.8 


0.1 


2.1 



Die Frage ist, wie man diese Aufsplittung 
der Haufigkeiten erhalt, wenn man die 
Modellparameter doch noch gar nicht 
kennt. Der EM-Algorithmus optimiert 
eine zunachst wil lk tirlich vorgenommene 
Aufsplittung von Iteration zu Iteration. 
Hat man erst einmal fiir jede Klasse die 
Haufigkeiten der Antwortmuster, so ist es 
ein leichtes, die Modellparameter zu be- 
rechnen: 

Die Modellgleichung der Analyse latenter 
Klassen lautet (vgl. Kap. 3. 1.2.2): 

( \ G 

(1) p(X v j = lJ=^ ^g^ig, 

g=l 



d.h. es sind die KlassengroBenparameter 
7tg und die Losungswahrscheinlichkeiten 
der Items innerhalb der Klassen TCj g zu be- 
rechnen. 

Schatzer fiir die KlassengroBenparameter 
7t g erhalt man, indem man die erwarteten 
Haufigkeiten in jeder Klasse zusammen- 
zahlt und durch die Gesamtanzahl der 
Personen dividiert. Fiir das obige Beispiel 
erhalt man also folgende KlassengroBen, 
wenn man annimmt, daB nur diese vier 
Pattern beobachtet worden sind: 

Ttj = 15.9/24 = 0.66 
n 2 = 3/24 = 0.13 
tc 3 = 5.1/24 = 0.21 

Entsprechend lassen sich die klassenspe- 
zifischen Losungswahrscheinlichkeiten er- 
mitteln, z.B. fiir die erste Klasse irn obi- 
gen Beispiel: 





1 


2 


3 


4 


5 


6 


7 


n «g 


11.3 


15 


15.8 


11.2 


3.9 


12.1 


15.1 


Jtig 


.71 


.94 


.99 


.70 


.24 


.76 


.95 



Die Itemlosungshaufigkeiten n ig ergeben 
sich jeweils durch das Zusammenzahlen 
derjenigen Pattemhaufigkeiten, in denen 
das Item gelost wurde. Die Modellpara- 
meter 7tjg erhalt man dann durch Division 
durch die erwartete Personenanzahl in der 
jeweiligen Klasse, also z.B. 15.9 fiir die 
erste Klasse. 

Hat man die Modellparameter auf diese 
Weise berechnet, so kann man mit deren 
Hilfe ein neues Splitting der beobachteten 
Pattemhaufigkeiten vomehmen. Hierfiir 
berechnet man fiir jedes beobachtete 
Pattern, wie wahrschcinlich es in jeder 
Klasse ist und splittet die beobachtete 
Patternhaufigkeit proportional zu diesen 
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Werten auf. Anhand dieser neuen Pat- 
ternhaufigkeiten fur die einzelnen latenten 
Klassen lassen sich dann wieder die Mo- 
dellparameter berechnen usw. 

Genau dieses Verfahren bezeichnet man 
als EM-Algorithmus. Der E-Schritt (E wie 
Erwartungswerte ) ist der Schritt, in dem 
man die beobachteten Pattemhaufigkeiten 
proportional zu den Pattern wahrsehein- 
liclikeiten in den latenten Klassen auf- 
splittet. Man berechnet also die erwarteten 
Pattemhaufigkeiten in den Klassen (daher 
E). 

Der zweite Schritt, in dem man die Mo- 
dellparameter fur die einzelnen Klassen 
berechnet, ist der M-Schritt (M wie Maxi- 
mierung), da die so berechneten Modell- 
parameter Maximum-Likelihood-Schatzun- 
gen der Modellparameter unter der Bedin- 
gung der gegebenen klassenspezifischen 
Pattemhaufigkeiten sind. 

Tatsachlich konvergiert die iterative Ab- 
folge dieser beiden Schritte zu einem Ma- 
ximum der Likelihoodfunktion des jewei- 
ligen klassifizierenden Testmodells. Tm 
folgenden werden die beiden Rechen- 
schritte etwas praziser als zuvor definiert. 



E-Schritt 

Der E-Schritt setzt vorlaufige Parameter- 
schatzungen aller Modellparameter voraus 
und ermittelt die erwarteten Pattemhau- 
figkeiten fur jede Klasse. Die in einer 
Klasse erwarteten Pattemhaufigkeiten 
fig(x) lassen sich aus den beobachteten 

Pattemhaufigkeiten n(x) dadurch berech- 
nen, dab man sie mit der Wahrschein- 
lichkeit multipliziert, genau dieses Pattern 
in Klasse g zu beobachten : 

„ . , , . p(xAg) 

(2) n g (x) = n(x) - , , . 



Der Zahler dieser letztgenannten Walir- 
scheinlichkeit, p(x a g), ist von der be- 

dingten Patte rn wah rsc hcinlichkcit p(x|g) 
folgendermaben zu unterscheiden: 

(3) p(xAg) = 7C g -p(x|g), 

was sich aus der Definition bedingtet 
Wahrscheinlichkeiten ergibt. Der Nenner 
in Gleichung (2) p(x), ist folgender- 
maben definiert (vgl. Gleichung (8) in 
Kapitel 3. 1.2.2): 

G 

(4) p(x)= X n g P(*|g)- 

g =1 

Die bedingte Patternwahrscheinlichkeit 
p(xld), die in beiden Gleich ungen (3) und 

(4) auftaucht, ist durch das Produkt aller 
Antwortwalirschcinliclikeiten definiert 
(vgl. Formel (9) in Kap. 3. 1.2.2). 

Mit Hilfe dieser Gleichungen lassen sich 
fur jede beobachtete Patternhaufigkeit die 
erwarteten Anteile fur jede latente Klasse 
g ermitteln. 



M -Schritt 

In diesem Schritt werden aufgmnd der 
klassenspezifischen Pattemhaufigkeiten 
hg(x) die Modellparameter geschatzt. Die 

Schatzer fur die Klassengrobenparameter 
lauten: 

(5) - X ftg (x)/ N , 

X 

das ist die relative Haufigkeit der eiwar- 
teten Personenanzahl an der Gesamt- 
stichprobe. 

Die Schatzer fur die klassenspezifischen 
Lbsungswahrscheinlichkeiten lauten 
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(6) ^i g = X " g (x)/(v N ) * 

x|xj=l 

also die relative Anzahl aller in diese 
Klasse entfallenden Pattern, in denen das 
Item i eine 1-Antwort hat. 

Auch hier ist es wieder nicht moglich, den 
Algorithmus per Hand durchzurechnen, so 
daB ein einfaches Computerprogramm die 
einzelnen Rechenschritte verdeutlichen 
soil. Die Variablennamen im Programm 
entsprechen weitgehend der Notation in 
den Formeln, d.h. pxg sind die Pattern- 
Wahrscheinlichkeiten in Klasse g, p(x|g), 
und nx ist die Patternhaufigkeit n(x). 

Um den Algorithmus starten zu konnen, 
benotigt man im ersten E-Schritt Start- 
werte fur die Modellparameter. Anders als 
bei dem im vorangehenden Kapitel be- 
schriebenen Algorithmus, diirfen hier die 
Startwerte nicht alle gleich sein.. Auf die 
mogliche Abhangigkeit der Ergebnisse 
von der Wahl dieser Startwerte wird im 
nachsten Kapitel eingegangen. 



Ein Fortran-P rogramm zur Schatzung 
der M odellparameter 

Deklarierung von zwei Datenfeldern fiir die Ant- 
wortpattern (xvi) und deren Haufigkeiten (nx). Die 
reellwertigen Felder enthalten die Modellparame- 
ter (pg und pig), Patternwahrscheinlichkeiten (pxg) 
und die zugehorigen klassenspezifischen Haufig- 
keiten. 

integer xvi(30,5),nx(30) 
real pg(2),pig(2,5),pxg(2) 
real ng(2),mg(2,5),ngx(30,2) 

Es werden die 30 Patternhaufigkeiten des KFT-Da- 
tenbeispiels mit zugehorigen Antwortpattem ein- 
gelesen (s. Kap. 3.1). 

do 1 i=l,30 

1 read(l,100) nx(i),(xvi(ij)j=l,5) 

100 format(i4,3x,5i2) 

Die Modellparameter werden auf beliebige Start- 
werte gesetzt. 



Pg(l)=0.4 
Pg(2)=0.6 
do 2 j=l,2 
do 2 i=l,5 

2 pig(j,i)=0.5 
pig(U)=0.6 

Die Iterationsschleife beginnt, sie endet bei Zeile 
Nr. 3. 

do 3 iter= 1,20 

Hier beginnt der E-Schritt: Die Doppelschleife 10 
setzt die erwarteten Haufigkeiten auf Null, 
do 10 j=l,2 
ng(j)=0.0 
do 10 k=l,5 
10 nig(j,k)=0.0 

Die Schleife 4 geht alle 30 Pattern durch und die 
Schleifen 5 und 6 berechnen die bedingten Pattern- 
wahrscheinlichkeiten. 

do 4 i= 1 ,30 
sum=0.0 
do 5 j=l,2 

pxg(j)=pg(i) 
do 6 k=l,5 

6 pxg(j)=pxg(j)*pig(j,k)**xvi(i,k)* 

( 1 .0-pig(j,k))**(l -xvi(i,k)) 

5 sum=sum+pxg(j) 

Die Schleife 7 splittet die Patternhaufigkeiten ge- 
maB Gleichung (2) auf. 

do 7 j=l,2 

ngx(ij )=nx(i) *pxg(j )/sum 
ng(j)=ng(i)+ngx(ij) 
do 7 k=l,5 

7 nig(j ,k)=nig(j ,k)+ngx(i,j )*xvi(i,k) 

4 continue 

Hier beginnt der M -Schritt: Schleife 8 und 9 be- 
rechnen die Modellparameter gemaB den Glei- 
chungen (5) und (6) und drucken sie aus. 
do 8 j=l,2 
pg(j)=ng(j)/300 
do 9 k=l,5 

9 pig(i,k)=nig(j,k)/ng(j) 

8 write(2,200) pg(i),(pigj,k),k=l,5) 

200 format(6f6.3) 

3 continue 
end 
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Das Programm berechnet fur das Daten- 
beispiel der KFT-Items (vgl. Kap. 3.1) die 
Parameter der Zweiklassenlosung der 
latent-class Analyse fur dichotome Daten. 
Labt man dieses Programm laufen, so 
ergeben sich die in der folgenden Tabelle 
wiedergegebenen Schatzwerte der Modell- 
parameter fiir die ersten 20 Iterationen. 



*g 


TCgi 


Iterations- 

schritt 


0.411 

0.589 


0.704 0.612 0.493 0.394 0.325 
0.613 0.564 0.465 0.364 0.305 


i 


0.412 

0.588 


0.729 0.658 0.532 0.437 0.353 
0.595 0.531 0.438 0.334 0.285 


2 


0.419 

0.581 


0.793 0.749 0.616 0.528 0.415 
0.546 0.464 0.376 0.267 0.240 


3 


0.442 

0.558 


0.876 0.870 0.727 0.655 0.492 
0.471 0.357 0.279 0.157 0.172 


4 


0.466 

0.534 


0.907 0.932 0.781 0.716 0.518 
0.426 0.280 0.212 0.081 0.135 


5 


0.481 

0.519 


0.907 0.944 0.787 0.720 0.513 
0.412 0.249 0.189 0.059 0.129 


6 


0.492 

0.508 


0.905 0.945 0.782 0.712 0.506 
0.403 0.234 0.181 0.052 0.127 


7 


0.500 

0.500 


0.903 0.943 0.776 0.704 0.501 
0.396 0.223 0.177 0.049 0.126 


8 


0.507 

0.493 


0.902 0.942 0.771 0.697 0.498 
0.391 0.215 0.175 0.048 0.124 


9 


0.512 

0.488 


0.902 0.940 0.766 0.691 0.495 
0.385 0.208 0.173 0.046 0.122 


10 








0.530 

0.470 


0.900 0.935 0.751 0.673 0.486 
0.369 0.187 0.167 0.043 0.118 


16 


0.531 

0.469 


0.899 0.935 0.750.0.671 0.486 
0.367 0.185 0.167 0.043 0.118 


17 


0.532 

0.468 


0.899 0.935 0.749 0.670 0.485 
0.366 0.183 0.167 0.043 0.118 


18 


0.533 

0.467 


0.899 0.934 0.748 0.669 0.485 
0.365 0.182 0.166 0.042 0.117 


19 


0.534 

0.466 


0.899 0.934 0.748 0.668 0.484 
0.365 0.181 0.166 0.042 0.117 


20 



Es zeigt sich schon nach wenigen Itera- 
tionen die Struktur der beiden entstehen- 
den Klassen, dab es sich namlich bei der 
ersten Klasse um eine Klasse mit durch- 
weg hoheren Losungswahrscheinlichkei- 
ten handelt, wahrend diese in der zweiten 
Klasse niedriger sind. Lediglich die Klas- 
sengrobenparameter, deren Startwerte 
offensichtlich in der falschen Reihenfolge 
spezifiziert waren, kehrcn sich erst spater, 
d.h. genau nach der achten Iteration um. 
Das nach 20 Iterationen erreichte Resultat 
entspricht dem in Kapitel 3. 1.2.2 wieder- 
gegebenen. 

Es ist ein typisches Merkmal dieses EM- 
Algorithmus, dab er am Anfang in relativ 
groben Schritten in Richtung des Maxi- 
mums der Likelihoodfunktion sehreitet, 
gegen Ende des Konvergenzprozesses je- 
doch sehr langsam wird, d.h. viele Itera- 
tionen braucht, in denen sich die Parame- 
terwerte nur noch minimal verandern. 

Dieser Algorithmus, dessen Prinzip hier 
fiir den einfachsten Fall einer Klassenana- 
lyse dargestellt wurde, ist auberst univer- 
sell anwendbar, d.h. auch fiir die komple- 
xeren Modelle mit Parameterrestriktionen 
oder fiir ordinale Daten. 

Diese Flexibility verdankt der EM-Algo- 
rithmus der Tatsache, dab im M-Schritt, in 
dem bereits die auf die Klassen aufge- 
splitteten Pattemhaufigkeiten vorliegen, so 
ziemlich jedes Modell spezifiziert werden 
kann. Einzige Bedingung ist, dab man im 
M-Schritt Maximum-Likelihood-Schdtzer 
fiir das jeweilige Modell berechnet. Zu- 
dem kann man im M-Schritt auch Modell- 
parameter gleichsetzen, d.h. durch ihrcn 
gemeinsamen Mittelwert ersetzen oder auf 
apriori fixierten Werten festhalten (vgl. 
Kap. 3. 1.2.3). 
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Dabei ist es nicht notwendig, daB im M- 
Schritt die Maximum-Likelihood-Schatzer 
fiir die Modellparameter anhand von ex- 
pliziten Gleichungen berechnet werden, 
wie im Fall der dichotomen Klassenanaly- 
se (s.O. ‘M-Schritt’). Vielmehr kann man 
auch in jedem M-Schritt ein iteratives 
Verfahren anwenden, das der Berechnung 
von ML-Schatzem fiir das Modell inner- 
halb jeder Klasse dient. Ein solches inein- 
andergeschachteltes, ‘doppeltes’ Iterations- 
verfahren wird z.B. fiir die mixed Rasch- 
Modelle verwendet (s. Kap 3.1.3 und 
3.3.5). 

Einige Probleme, die bei der praktischen 
Arbeit mit klassifizierenden Testmodellen 
auftreten konnen und die mit diesem EM- 
Algorithmus zu tun haben, werden im 
folgenden Kapitel behandelt. 



L iteratur 

Der hier dargestellte Algorithmus geht auf 
Goodman (1974a, 1979) zuriick. Der EM- 
Algorithmus wurde in seiner allgemeinen 
Fomi von Dempster et al. (1977) unter- 
sucht und Andersen (1982) hat gezeigt, 
daB der Goodmann-Algorithmus ein Spe- 
zialfall dieses EM-Algorithmus ist. Einen 
historischen Uberblick iiber die Methoden 
der Parameterschatzung bei Klassenmo- 
dellen gibt Fomiann (1980), der auch eine 
andere Methode der Parameterschatzung 
entwickelt hat, die auf der Maximierung 
der Likelihood der logistischen Klassen- 
analyse beruht (Formann 1984). Eine 
dritte Methode der Parameterschatzung 
verwendet Haberman (1988). Der erwei- 
terte EM-Algorithmus fiir Klassenmodelle 
fiir ordinale Daten findet sich in Rost 
(1988b, d) und fiir mixed Rasch-Modelle 
in Rost (1990. 1991). 



0 bungsaufgaben 

1. Untersuchen Sie anhand der Schatz- 
gleichungen des EM-Algorithmus, was 
passiert, wenn man fiir alle Modellpa- 
rameter den Startwert 0.5 wiihlt. 

2. Berechnen Sie mit WINMIRA den 
Wert der Likelihoodfunktion der KFT- 
Daten nach 5, 10 und 20 Iterationen. 
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4.3 Die Eindeutigkeit der 
Parameterschatzungen 

Tm vorangehenden Kapitel wurden Algo- 
rithmen zur Ermittlung von Parameter- 
schatzwerten dargestellt, die die Likeli- 
hoodfunktion des betreffenden Testmo- 
dells maximieren. Dabei wurde die Frage 
ausgeklammert, ob die Likelihoodfunktion 
im Bereich der zulassigen Parameterwerte 
Uberhaupt ein Maximum besitzt (das ist 
die Frage nach der Existenz von ML- 
Schatzungen) und ob es nur ein eindeutig 
definiertes Maximum gibt (das die Frage 
nach der Eindeutigkeit von ML-Schatzun- 
gen). 

Die Eindeutigkeit der Parameterschatzun- 
gen kann wiederum durch zwei Gegeben- 
heiten verletzt sein, namlich dadurch, dab 
es neben dem globalen Maximum noch 
weitere, lokale Maxima oder Nebenmaxi- 
ma gibt, oder dab das Maximum der Like- 
lihoodfunktion nichl durch ein Punkt defi- 
niert ist, sondern selbst ein Plateau oder 
eine Flache dais tel It. 

Kann letzteres fur ein bestimmtes, rech- 
nerisch ermitteltes Maximum ausge- 
schlossen werden, d.h. stellt das Maxi- 
mum tatsachlich einen Punkt und keine 
Flache dar, so sagt man, dab das Modell 
lokal identifizierbar ist. Lokale Identifi- 
zierbarkeit impliziert jedoch nicht, dab es 
keine multiplen Maxima, d.h. Maxima an 
anderen Stellen des mehrdimensionalen 
Parameterraums gibt. 

Wir haben es also mit drei Problemen zu 
tun, namlich der Frage nach 

- der Existenz von ML-Schatzungen 

- moglichen multiplen Maxima und 

- der lokalen Identifizierbarkeit 



Tm Fall von quantitativen Testmodellen, 
insbesondere bei Rasch-Modellen, sind 
diese Punkte im allgemeinen unproblema- 
tisch, d.h. man kann bei ‘regularen’ Test- 
daten davon ausgehen, dab die ML-Schat- 
zungen existieren und eindeutig sind. 

Fur das dichotome Rasch-Modell gibt es 
eine einfache, notwendige und hinrei- 
chencle Bedingung fur die Existenz und 
Eindeutigkeit. Diese Bedingung besteht 
darin, dab sich in der Testdatenmatrix die 
Items und Personen nicht so umordnen 
lassen diirfen, dab die Datenmatrix die 
folgende Struktur anninunt: 




A bbi I dung 138: Struktur einer Datenmatrix, bei 
der Existenz und Eindeutigkeit von ML-Schatzun- 
gen nicht gegeben ist 

Das bedeutet, es darf keine Aufteilung der 
Items in zwei Gruppen, I, und I 2 , und 
keine Aufteilung der Personen in zwei 
Gruppen, V, und V 2 , geben, so dab alle 
Items der einen Gruppe von alien Perso- 
nen einer Gruppe gelost werden (R 2 ), 
wahrend alle Items der anderen Gruppe 
von keiner Person der anderen Gruppe 
gelost werden (R 3 ). 

Dab bei Vorliegen einer solchen Daten- 
struktur keine Parameterschatzung mog- 
lich ist, ist intuitiv leicht nachvollziehbar: 
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In diesem Fall wiirden namlich die Para- 
meterschatzungen der ersten Itemgruppe 
nur auf den Antworten der ersten Per- 
sonengruppe beruhen und die Parame- 
terschatzungen der zweiten Itemgruppe 
nur auf den Antworten der zweiten Per- 
sonengmppe. Wie schwer jedoch die Items 
aus I 2 fur die Personen aus V! sind oder 
wie schwer die Items aus I, fur die 
Personen aus V 2 sind, laBt sich nicht 
schatzen, weil diese Personen alle bzw. 
kein Item der betreffenden Gruppe gelost 
haben. 

Der Datensatz ‘zerfallf in diesem Fall in 
zwei separate Datensatze R, und R 4 , fiir 
die nur getrennte Parameterschatzungen 
moglich sind. Die Anordnung der Perso- 
nen aus beiden Datensatzen auf einer ge- 
meinsamen Skala ist nicht moglich, da 
sich weder die Item- noch die Personen- 
stichproben iiberlappen. 

Diese Bedingung ist fiir einen gegebenen 
Datensatz sc hr leicht UberprUfbar. Sofern 
eine Stmktur wie in Abbildung 138 vor- 
liegt, sind namlich alle Itemscores n, der 
Items aus I[ kleiner als die der Items aus 
1 2 . Entsprechend sind alle Personenscores 
r v der Personen aus V 2 kleiner als die der 
Personen aus V,. Ein Sortieren der Items 
und der Personen nach der GroBe ihrcr 
jeweiligen Summenscores erlaubt daher 
eine direkte visuelle Priifung der resul- 
tierenden Datenmatrix, ob die in Abbil- 
dung 138 dargestellte kritische Struktur 
gegeben ist. 

Auf eine routinemafiige Ubeiprufung die- 
ser Bedingung wird in den meisten Com- 
puteiprogrammen jedoch verzichtet, da sie 
sehr selten gegeben ist. 

Bei klassifizierenden Testmodellen gibt es 
zur Frage der Eindeutigkeit der Parameter- 



schatzungen leider keine vergleichbaren 
Bedingungen, die leicht zu priifen waren. 
Dariiber hinaus zeigt sogar die Erfahrung, 
daB es bei groBen Datensatzen mit vielen 
Items und mehreren latenten Klassen sehr 
wohl cles ofteren multiple Maxima gibt. 
Audi gibt es bei Datensatzen mit wenig 
Items aber mehreren latenten Klassen 
manchmal Probleme mit der lokalen Iden- 
tifzierbarkeit. 

Es stellt sich also bei der praktischen 
Anwendung dieser Testmodelle die Not- 
wendigkeit, entsprechende Berechnungen 
anzustellen und sich gegen Fehlinterpreta- 
tionen von Ergebnissen abzusichern. 

Tm folgenden wird dieses Problem nicht 
theoretisch abgehandelt, sondern es wer- 
den einige Analyseschritte genannt, die 
man bei der Anwendung eines klassifi- 
zierenden Testmodells im Zweifelsfall 
durchfiihren sollte. 



Ist die P arameteranzahl zu groG? 

Eine erste Berechnung, die vor der Test- 
analyse durchgefiihrt werden kann, betrifft 
die Frage, ob das Testmodell eventuell 
me hr Modellparameter enthalt als es beob- 
achtete Patteinhaufigkeiten gibt. Es stellt 
namlich eine notwendige Voraussetzung 
dar, daB die Parameteranzahl kleiner sein 
muB, d.h. es muB gelten 

(1) m k - 1 > Anz. unabh. Modellparameter, 

wenn m die Anzahl der Antwortkategorien 
bei jedem von k Items ist. Wurden nicht 
alle moglichen Antwortpattern beobachtet, 
so ist auf der linken Seite der Ungleichung 
die entsprechend kleinere Anzahl beob- 
achteter Antwortmuster einzusetzen. 



Dies bedeutet z.B., daB mit drei dichoto- 
men Items keine Zweiklassenlosung des 
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Modells latenter Klassen berechnet wer- 
den kann, da es bei sieben unabhangigen 
Patternhaufigkeiten auch genau sieben zu 
schatzende Parameter gibt. Fur komplexe- 
re Modelle ist die Anzahl unabhangiger 
Modellparameter jeweils unter Beriick- 
sichtigung der Normierungsvorschriften 
zu emritteln (s. Kap. 3). 

Neben dieser relativ einfachen, aber noch 
nicht sehr aussagekraftigen Prirfung, gibt 
es einen Test auf lokale Identifizierbarkeit, 
den manche Conrputerprogramme anbie- 
ten: 



Sind die geschatzten Parameter lokal 
identifiziert? 



Diese Prirfung bedient sich einer Gesetz- 
maBigkeit aus der Maximunr-Fikelihood- 
Theorie, die besagt, daB die Matrix der 
ersten partiellen Ableitungen der Pattern- 
Wahrsehcinlielikeiten nach den Modell- 
parametem vollen Rang haben nruB, d.h. 
Spaltenrang: 



(2) Rang 



3p(x) 

dn. 



= q- 



m k x q 



Die in der Klammer stehende Matrix hat 
nr k Zeilen, namlich soviele wie es Pattem- 
Walirsehcinlichkeitcn gibt, und q Spalten, 
wobei q die Anzahl unabhangiger Modell- 
parameter ist. Mit n s wurde hier ein belie- 
biges Element aus denr Vektor der Mo- 
dellparameter 

7t = (TCj, 7^2’ 

bezeichnet. Diese Matrix hat nichr Zeilen 
als Spalten und kann daher nur den Rang q 
erreichen (Spaltenrang). Ist der Rang der 
Matrix kleiner, so ist die lokale Identi- 
fizierbarkeit nicht gegeben. 



Aber selbst wenn diese beiden Bedingun- 
gen erfullt sind, ist inrmer noch nicht ga- 
rantiert, daB nicht noch weitere Maxima 
neben denr gefundenen Maximum existie- 
ren. 



Was sind multiple Maxima? 

Diese Frage laBt sich am einfachsten nrit 
einenr Bild beantworten. So zeigt der fol- 
gende Funktionsgraph eine Funktion nrit 
mehreren Maxima: 




Abbildung 139: Ein Funktionsgraph mit multiplen 
Maxima 

Wenn man von dieser Funktion das Maxi- 
mum mit Hilfe des EM-Algorithnrus 
sucht, so erhalt man unterschiedliche Para- 
meterschatzungen, je nachdem, ob man 
von Wert A oder Wert B aus starlet (vgl. 
4.2.2). Von B aus wurde der Algorithnrus 
zu 0 2 als bestenr Schatzer konvergieren 
und von A aus zu 0j. 

Es ist klar, daB 0 j der bessere Schatzer ist, 
weil die Wahrscheinlichkeit der Daten an 
diesem Punkt sehr viel holier ist. 0j defi- 
niert das globale Maximum, 0 2 lediglich 
ein lokales Maximum oder Nebenmaxi- 
mum. 



Um sich gegen die Interpretation lokaler 
Maxima abzusichem, gibt es derzeit nur 
eine Strategic, und das ist die Berechnung 
der Modellparameter ausgehend von ver- 
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schiedenen Startwerten. Das bedeutet, dab 
man dieselben Testanalysen mehrfach 
durchfuhren muB, wobei man jeweils die 
Startwerte fiir den Schatzalgorithmus an- 
dert. 

Die verschiedenen Computeiprogramme 
bieten hierfur unterschiedliche Varianten 
an. Wahrend eine Moglichkeit darin be- 
steht, systematisch unterschiedliche Start- 
werte fur alle Modellparameter in das 
Programm einzugeben, besteht die leichte- 
re Moglichkeit darin, mit dem Zufallszah- 
lengenerator jedesmal neue zufdllige Start- 
werte fiir die Modellparameter zu generie- 
ren. In diesem Fall muB man bei dem ent- 
sprechenden Computerprogramm lediglich 
den Startwert fiir den Zufallszahlen- 
generator andern, da auch ein Zufallszah- 
lengenerator stets dieselben Zahlen pro- 
duziert, wenn er mit demselben Startwert 
‘geziindet’ wird. Noch komfortabler ist 
Software, die Berechnungen von me lire re n 
Startwerten selbstandig durchfiihrt und die 
Ergebnisse automatisch vergleicht. 

Tm allgemeinen muB dieser V ergleich je- 
doch vom Benutzer des Programms selbst 
durchgefuhrt werden, d.h. man muB 
schauen, ob die verschiedenen Rechnun- 
gen mit unterschiedlichen Startwerten zum 
selben Maximum der Likelihoodfunktion 
gefiihrt haben. Ist dies nicht der Fall, d.h. 
sind mit verschiedenen Startwerten auch 
unterschiedliche Werte der Likelihood- 
funktion verbunden, so muB man den 
grofiten Wert der Likelihoodfunktion 
suchen. Dieses Resultat sollte man weiter 
absichem, indem man Rechnungen mit 
weiteren neuen Startwerten durchfuhrt. 

Dieses Verfahren klingt nicht selir wissen- 
schaftlich und ist in der Tat auch nur eine 
Notlosung. Es ist aber stets dann unerlaB- 
lich, wenn aufgrund der Daten- und Mo- 



dellstruktur mit multiplen Maxima zu 
rechnen ist. ErfahrungsgemaB ist dies z.B. 
bei fiinf latenten Klassen und mein' als 10 
oder 12 Items ofters der Fall. 

Hinsichthch der Frage multipler Maxima 
gibt es bei Klassenmodellen noch ein spe- 
zielles Problem, namlich dann, wenn ein- 
zelne Parameterwerte zu ihren Grenzen 
hin konvergieren, d.h. irn Fall von Wahr- 
scheinlichkeitsparametem die Werte Null 
oder Eins annehmen. Man spricht hier von 
sogenannten boundary values, d.h. Grenz- 
werten, die deswegen so problematisch 
sind, weil sich der Schatzalgorithmus im 
allgemeinen nicht mein von diesem Wert 
wegbewegt. 

Anders ausgedruckt, ein Finden des Maxi- 
mums der Likelihoodfunktion kann ver- 
hindert werden, wenn im Laufe des 
Iterationsprozesses eine Antwortwahr- 
scheinlichkeit den Wert 0 oder 1 annimmt. 
Auch dies passiert bei groBen Klassen- 
anzahlen manchmal und macht es erfor- 
derlich, dieselbe Rechnung mit neuen 
Startwerten durchzufuhren. Erst wenn 
jedesmal dieselben Modellparameter auf 
dieselben Grenzwerte Inn konvergieren, 
darf die gefundene Losung akzeptiert und 
interpretiert werden. 

Konvergieren bei wiederholten Berech- 
nungen immer andere Modellparameter 
gegen ihr e Grenzwerte, so ist dies ein 
Warnsignal, daB die gegebenen Daten zu 
informationsarm sind, das entsprechende 
Testmodell zu berechnen. Hier sollte die 
Klassenanzahl verringert werden und/oder 
das Modell durch Parameterrestriktionen 
sparsamer gemacht werden. 
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Literatur 

Die Eindeutigkeitsbedingungen des 
Rasch-Modells hat Fischer (1981) 
untersucht. Den Rang der Matrix der 
ersten partiellen Ableitungen als Kriterium 
fur die lokale Identifizierbarkeit beschrei- 
ben Goodman (1974) und Formann 
(1984). Die wiederholte Schatzung der Pa- 
rameter mit anderen Startwerten empfiehlt 
Clogg (1981). Zur Identifizierbarkeit bei 
Klassenmodellen s.a. Titterington et al. 
(1985). 



U bungsaufgaben 

1. Berechnen Sie fiir alle 3 Datensatze 
(KFT-, ESU- und NEOFFI-Daten), 
wieviele latente Klassen geschatzt wer- 
den konnen, wenn man nur das Krite- 
rium der Parameteranzahl, Gleichung 
(1), berircksichtigt. 

2. Prirfen Sie mit WINMIRA, welche 
Probleme der Eindeutigkeit der Schat- 
zungen es bei der 3-Klassenlosung der 
NEOFFI-Daten gibt. 
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4.4 Die Genauigkeit der Pa- 
rameterschatzungen 

Hat man das Maximum der Likelihood- 
funktion gefunden und sich vergewissert, 
daB es sich um das globale Maximum 
handelt, so stellt sich die Frage, wie genau 
denn der erhaltene Schatzwert ist, d.h. wie 
groB moglicherweise die Abweichung 
vom wall re n Parameterwert ist. 

Die Frage nach der Mefigenauigkeit eines 
Tests ist immer dann identisch zu der Fra- 
ge nach der Genauigkeit der Parameter- 
schatzungen, wenn die zu messende Per- 
sonenvariable durch Modellparameter re- 
prasentiert wird. Dies ist bei alien quanti- 
tativen Testmodellen der Fall, da die 
Schatzwerte der Personenparameter das 
Testergebnis oder den MeBwert darstellen. 

Bei klassifizierenden Testmodellen ist die 
Klassenzugehorigkeit als ‘MeBwert’ selbst 
kein Modellparameter, jedoch ist auch hier 
die Zuordnungssicherheit zu den latenten 
Klassen indirekt von der Genauigkeit der 
Parameterschatzungen abhangig. 

Die Moglichkeit, die MeBgenauigkeit 
eines Tests iiber die Genauigkeit der Para- 
meterschatzungen zu erfassen, stellt einen 
wesentlichen Unterschied zur Mefifehler- 
theorie dar. Im Rahmen der MeBfehler- 
theorie ist namlich die Bestimmung der 
Genauigkeit eines MeBwertes nur iiber den 
‘Umweg’ der Reliabilitdtsbestimmung 
moglich (vgl. Kap. 6.1). Die Genauigkeit 
eines geschatzten Parameters, also auch 
eines PersonenmeBwertes, laBt sich im 
Rahmen der Maximum-Likelihood-Theo- 
rie dagegen direkt, d.h. ohne Berechnung 
der Reliabilitat eines Tests bestimmen. 
Dies ist im folgenden dargestellt. 



Die Berechnung der Schatzgenauigkeit be- 
ruht auf einem generellen Satz der Maxi- 
mum-Likelihood-Theorie, nach dem ML- 
Schatzer asymptotisch normalverteilt sind. 
Das bedeutet, daB sich bei wiederholter 
Schatzung desselben Parameters anhand 
unabhangiger Stichproben die Schatzwerte 
so verteilen, wie es die Normalverteilung 
angibt. 

Der Mittelwert dieser Normalverteilung (s. 
Kap. 1.2.2) ist der walirc Parameterwert 
und die Glockenkurve spezifiziert, mit 
welcher Wahrsehcinliehkeit Schatzwerte 
erhalten werden, die von diesem wahren 
Wert abweichen (s. Abb. 140). 




Abbildung 140: Normalverteilte ML-Schatzer 

Je kleiner die Standardabweichung dieser 
Glockenkurve ist, desto holier ist die Ge- 
nauigkeit einer Parameterschatzung, da 
starkere Abweichungen vom wahren Wert 
dann weniger wahrsehcinlieh sind. 

Von ML-Schatzern weiB man nicht nur, 
dafi sie normalverteilt sind, sondern man 
kann sogar die Varianz dieser Normalver- 
teilung berechnen. 

Kennt man die Varianz der Verteilung 
eines Schatzers, so weiB man zwar immer 
noch nicht, wie groB der wall re Parame- 
terwert ist, aber man kann sagen, mit 
welcher Wahrscheinlichkeit er in welchem 
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Abstand vom geschatzten Wert liegt. 
Abbildung 141 verdeutlicht das. 




Abbildung 141: Die Wahrscheinlichkeit des Ab- 
stands von wahrem und geschatztem Parameter- 
wert 

Eigentlich gibt die Normalverteilung des 
Schatzers an, mit welcher Wahrschein- 
lichkeit ein Schiitzwert einen bestimmten 
Abstand vom wahren Wert hat (rechte 
K u rve in Abb. 141). Diese Wahrschein- 
lichkeit ist aber identisch zu der Wahr- 
scheinlichkeit des wahren Wertes, wenn 
man die Glockenkurve urn den geschatz- 
ten Parameter zeichnet (linke Kurve). 

Man kann also aus der Varianz der Ver- 
teilung der Schatzwerte sc hr praktische 
SchluBfolgerungen beziiglich der MeBge- 
nauigkeit ziehen, z.B. wie weit der wall re 
Wert vom Schatzwert entfernt liegen 
konnte. Hiervon wild im Kapitel 6.1.3 Ge- 
brauch gemacht. 

Diese Varianz der Schatzwerte eines Para- 
meters kann mit Hilfe der sogenannten Zn- 
formationsfunktion berechnet werden, ein 
Begriff der bereits 1921 von R.A. Fischer 
eingefiihrt wurde. 

Die Informationsfunktion dmckt die in den 
Daten enthaltene statistische Information 
hinsichtlich der Schatzung eines einzelnen 
Modellparameters aus. Sie ist gleich dem 
negativen Erwartungswert der zweiten par- 
tiellen Ableitung der log-likelihoodfunk- 



tion nach einem bestimmten Parameter n, 
also 



( 1 ) 



r 

I(7t) = -Erw 

V 



d 2 log L 
B 7t 2 



\ 



J 



Je groBer dieser Wert ist, desto mehr 
Information ist in den Daten beziiglich der 
Schatzung eines Modellparameters enthal- 
ten und desto kleiner ist demnach auch die 
Varianz des Schatzwertes dieses Para- 
meters. Man nennt diese Varianz auch die 
Schatzfehlervarianz, da sie allein durch die 
Ungenauigkeit der Parameterschatzung, 
also den Schdtzfehler zustande kommt. 

Tatsachlich ist die Schatzfehlervarianz 
eines Parameters direkt gleich dem rezi- 
proken Wert des Infomiationsbetrages (1), 
d.h. es gilt 

(2) Var(E,) = A I . 



Die Standardabweichung der Normalver- 
teilung des Schatzfehlers ist dann Eins 
durch Wurzel aus der Informationsfunk- 
tion: 



(3) s(E K ) 



1_ 

jHn)' 



Diese Berechnung der Schatzfehlervarianz 
gilt fiir alle Testmodelle deren Parameter 
nach der ML-Methode geschatzt werden, 
d.h. nicht nur fiir Rasch-Modelle, sondem 
auch fiir klassifizierende Testmodelle. Be- 
vor dai'auf eingegangen wird, wozu man 
die so ermittelte Schiitzgenauigkeit eines 
Parameters verwenden kann, soil das Prin- 
zip ihrer Berechnung nach Formel (3) an- 
hand der Parameter des dichotomen 
Rasch-Modells illustriert werden. 
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Die zweiten parti el I en A bl eitungen des 
dichotomen R asch-M odells 



Die ersten partiellen Ableitungen der 
Likelihoodfunktion dieses Modells wur- 
len bereits in Kapitel 4.2.1 angegeben: 



(4) 



3 log L _ + y exp(e -gj) 
da i + (tj l + exp(0 v - gj) 

N 

~ — rii "t X Pvi 

v— 1 



und 

3 log L _ £ exp(9 v -gj) 

3 0 v tv “J l + exp(0 v -g;) 

k 

= r v — X Pvi • 

i=l 



Die zweiten partiellen Ableitungen nach 
jeweils denselben Parametern lauten (nach 
mehreren Zwischenschritten) fur die Item 
parameter: 

3 2 logL £ exp(0 v -g ; ) 

( 6 ) 2 “ ( , \ \2 
V=1 (l + exp(0 v -gj)) 

= — X Pvi(^ — Pvi) 

v=l 



und fur die Personenparameter: 



(7) 



d 2 log L 
3 0 v 



^ exp(0 v - gj 



iti (l + exp(0 v - gj)) 2 
'X Pvifi-Pvi)- 

i=l 



Nach der Definition der Informationsfunk- 
tion in Gleichung (1) benotigt man den 
negative n Erwartungswert dieser zweiten 
partiellen Ableitungen. Den Erwartungs- 
wert kann man naturlich nicht berechnen, 
wenn man nur eine Stichprobe zur Verfii- 



gung hat, so dab man die zweiten partiel- 
len Ableitungen selbst als Annahemng des 
Erwartungswertes nimmt. 

Das negative Vorzeichen in den Gleichun- 
gen (6) und (7) hebt sich mit dem nega- 
tiven Vorzeichen aus Gleichung (1) auf, so 
dab die positiven Summen in Gleichung 
(6) und (7) den reziproken Wert der 
Fehlervarianz definieren: 

(8) Var (E 0 ) = 

X PviO-Pvi) 

V— 1 

(9) Var(E 0 ) = T • 

X Pv i ( ^ — Pvi ) 

i=l 

Hierbei handelt es sich um relativ einfache 
Ausdrucke, anhand derer sich gut nach- 
vollziehen labt, wovon die Schdtzgenauig- 
keit bei Rasch-Modellen abhdngt. Die 
Fehlervarianzen werden umso kleiner, je 
grober die jeweilige Summe irn Nenner 
wird, d.h. die Fehlervarianz der Itempara- 
meterschatzungen wird umso kleiner, je 
mehr Personen getestet wurden und die 
Fehlervarianz der Personenparameter- 
schatzungen wird umso kleiner, je mehr 
Items der Test umfabt. 

Dieses Resultat ist plausibel und war nicht 
anders zu erwarten. Aufschlubreich ist 
dariiber hinaus, die einzelnen Summanden 
in den beiden Nennem zu betrachten. Es 
handelt sich in beiden Fallen um das 
Produkt der Losungswahrscheinlichkeit 
p vi und seiner Gegenwahrscheinlichkeit 
(l-p vi ). Dieses Produkt entspricht der 
Varianz der (dichotomen) Antwort- 
variablen (vgl. Kap. 2.2.4). Es wird dann 
maximal, wenn die Losungswahrschein- 
lichkeit genau 0.5 betragt, d.h. das Pro- 
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dukt kann maximal den Wert 0.25 anneh- 
men. 

Darans folgt, daB die S c h a t z fe h I e r v a r i a n z 
umso kleiner wird, je besser die Schwie- 
rigkeiten der Items zu den Fahigkeiten der 
Personen passen, d.h. je naher die Lo- 
sungswahrscheinlichkeiten bei 0.5 liegen. 
Auch dieses Resultat ist plausibel, denn 
ein Test mit zu schweren oder zu leichten 
Items fur die jeweilige Personenstichprobe 
muB auch eine geringere Schatzgenauig- 
keit der Personenparameter haben. 



Datenbeispiel 

Fiir das Datenbeispiel der KFT-Items (s. 
Kap. 3.1) ergeben sich folgende Stan- 
dardschatzfehler (das ist die Wurzel aus 
den Schatzfehlervarianzen, s. Formel 3) 
fiir die Item- und Personenparameter- 
schatzungen: 

Item 





1 


2 


3 


4 


5 




-1.17 


-0.69 


0.04 


0.70 


1.12 


s(E a ) 


.154 


.150 


.147 


.149 


.153 






Score 








0 


1 


2 3 


4 


5 


0r 


-2.77 


-1.33 - 


0.41 0.42 


1.33 


2.76 


s(E e ) 


1.71 


1.11 


0.98 0.98 


1.11 


1.71 



Wie man sieht, ist die Schatzungenauig- 
keit fiir Personen mit einem Score von 0 
oder 5 groBer als fiir Personen mit einem 
Score von 2 oder 3. Der Test miBt also 
im Mittelbereich der Fahigkeiten besser 
als in den Randbereichen, was immer 
dann zu erwarten ist, wenn die Itempa- 
rameter auch im Mittelbereich liegen. 
Dies ist im gegebenen Datenbeispiel der 
Fall. 



Natiirlich sind die Standardschatzfehler fiir 
die Personenparameter sehr groB, was 
damn liegt, daB dieses Testbeispiel nur 5 



Items umfaBt. Dagegen sind die Stan- 
dardschatzfehler der Items viel kleiner, da 
die Stichprobe 300 Personen umfaBt. 

Die Schatzfehlervarianzen kann man fiir 
verschiedene Auswertungsschritte gebrau- 
chen, nicht nur zur Bestimmung der MeB- 
genauigkeit eines Tests (vgl. auch Kap. 
6.1). Z.B. kann man mit Hilfe von den 
Schatzfehlervarianzen auch priifen, ob sich 
zwei Parameter significant voneinander 
unterscheiden oder ob ein geschatzter 
Parameter von einem apriori angenom- 
menen Parameterwert abweicht. Auch las- 
sen sich die Parameterschatzungen, die 
man in zwei getrennten Personenstichpro- 
ben oder Itemstichproben erhalt, miteinan- 
der vergleichen (s. Kap. 6.2.1). 

Literatur 

Die asymptotischen Eigenschaften von 
ML-Schatzern sind in Standard we rken der 
mathematischen Statistik wie Kendall & 
Stuart (1973) oder Bickel & Doksum 
(1977) zu finden. Neuere Entwicklungen 
beschreiben Mislevy & Sheehan (1989). 
Foimann (1984) geht auf die Standard- 
schatzfehler bei Klassenmodellen ein. 



Ubungsaufgaben: 

1. Eine Person lost alle 10 Aufgaben 
eines Tests mit der Losungswahr- 
scheinlichkeit p = 0.5, eine zweite Per- 
son mit p = 0.9. Wie groB sind die 
Schatzfehlervarianzen ihrer Fahigkeits- 
parameter, wenn sich das Antwortver- 
halten beider Personen durch das 
Rasch-Modell beschreiben laBt? 

2. Berechnen Sie mit WINMIRA die 
Standardschatzfehler der Personenpa- 
rameter des NEOFFI-Datenbeispiels. 
Fiir welchen Score ist die Fchlervarianz 
am geringsten? 
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5. Modellgeltungstests 

Jede Testauswertung beruht auf einem 
Modell iiber das Antwortverhalten der 
Personen in diesem Test (vgl. Kap. 1.2). 
Ob die Testergebnisse etwas iiber die ge- 
testeten Personen aussagen und was sie 
bestenfalls aussagen konnen, hangt davon 
ab, ob das bei der Auswertung angewen- 
dete Testmodell iiberhaupt auf die erhobe- 
nen Daten paBt. Dies ist die Frage nach 
der Modellgiiltigkeit, die mit Hilfe von 
Modellgeltungskontrollen oder Modellgel- 
tungstests zu beantworten ist. 

Die Parameter eines Testmodells lassen 
sich anhand von Testdaten im allgemeinen 
auch dann schiitzen, wenn das Modell nur 
schlecht auf die Daten paBt. Das bedeutet, 
daB die Frage nach der Modellgeltung 
noch nicht beantwortet ist, wenn die 
Parameter des Modells geschatzt wurden. 
Jedoch ist fiir die meisten Modellgel- 
tungstests die Schatzung der Parameter 
eine Voraussetzung, so daB die Priifung 
der Modellgiiltigkeit der Parameterschat- 
zung nachgeordnet ist. 

Die Frage, ob ein Testmodell auf die 
Daten paBt, ist genauso wenig mit ‘ja' oder 
‘nein’ zu beantworten, wie die Frage, ob 
eine Theorie wahr oder falsch ist (vgl. 
Kap. 1.2). Neben den allgemeinen er- 
kenntnistheoretischen Gesichtspunkten zur 
Wahrheit wissenschaftlicher Aussagen, 
sind es vor allem zwei Gmnde, warnm 
man die Frage nach der Giiltigkeit eines 
Testmodells nicht mit ja oder nein beant- 
worten kann. 

Zum einen paBt jedes probabilistische 
Testmodell (und um diese geht es hier vor 
allem) mehr oder weniger gut auf die 
Daten. so daB es einer willkiirlichen 



Grenzziehung bedarf, um zu sagen: ‘ab 
hier paBt das Modell auf die Daten’ . 

Zum anderen ist bei der Beurteilung des 
AusmaBes, in dem ein Modell auf die 
Daten paBt, zu beriicksichtigen, mit wel- 
chem Aufwand, d.h. mit welcher Komple- 
xitdt der Modellstruktur diese Passung 
erreicht wird. Mit einem komplizierten 
Modell, das sehr viele Modellparameter 
umfaBt, kann man allemal eine bessere 
Passung auf die Daten erreichen als mit 
einem sparsamen Modell, das nur wenige 
Parameter umfaBt. 



Das Einfachheitskriterium 

Das Ziel einer Theorienbildung kann nicht 
nur darin bestehen, eine moghchst gute 
Ubereinstimmung mit empirischen Daten 
herzustellen, sondern es besteht auch dar- 
in, dies mit moghchst wenigen und ein- 
fachen Annahmen zu erreichen. Neben 
dem Gutekriterium der empirischen Giil- 
tigkeit einer Theorie ist daher die Einfach- 
heit einer Theorie ein weiteres wichtiges 
Gutekriterium: Je einfacher eine Theorie 
ist, desto besser ist sie. 

Eine einfache Theorie ist aber natiirlich 
nur dann besser, wenn sie dieselben 
Suchverhalte beschreibt und erklart, wie 
die komplexere Theorie. Das heiBt, man 
muB bei der Anwendung des Einfachheits- 
kriteriums normalerweise auch den Gel- 
tungsbereich der Theorie mitberiicksich- 
tigen. Dies kann bei der Beurteilung der 
Gute von Testmodellen jedoch entfallen. 
da der Geltungsbereich eines Modell: 
derselbe ist wie der eines konkurrierender 
Modells, namlich die gegebene Datenma- 
trix, die es zu analysieren gilt. 



Die Priifung der Modellgiiltigkeit hat 
daher stets zwei Dinge im Auge zu behal- 
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ten, namlich erstens, wie gut erklart das 
Modell die Daten und zweitens, mit wel- 
chem Aufwand an Modellparametem wird 
dies erreicht. Die Beriicksichtigung beider 
Kriterien stellt ein Gewichtungsproblem 
dar, das heiBt, man muB die Uberein- 
stimmung zwischen Modell und Daten 
dagegen aufwiegen, wieviel Parameter 
man ‘investiert hat. 

Die verschiedenen Moglichkeiten, die 
Gultigkeit eines Testmodells zu kontrollie- 
ren, beriicksichtigen die beiden genannten 
Gesichtspunkte der Dateniibereinstim- 
mung und der Einfachheit in unterschied- 
licher Weise. Allen Moglichkeiten ist je- 
doch gemeinsam, daB man sie stets als 
einen Modellvergleich auffassen kann: Da 
man nie iiber ein einzelnes Modell aus- 
sagen kann, ob es paBt oder nicht, kann 
eine Modellgeltungskontrolle nur ergeben, 
daB ein Modell angemessener ist als ein 
anderes Modell. Bei vielen Modellgel- 
tungstests ist es auf den ersten Blick nicht 
leicht zu erkennen, daB es sich um Mo- 
dellvergleiche handelt. In den folgenden 
Kapiteln wird dies deutlich werden. 

Prinzipiell lassen sich drei verschiedene 
Alien von Modellgeltungstests unterschei- 
den. Zum einen kann man Modelle anhand 
iln'er Likelihoodwerte miteinander verglei- 
chen. Die Likelihood der Daten unter 
einem bestinmiten Modell sagt etwas dar- 
iiber aus, wie wahrscheinlich die beobach- 
teten Daten sind, so daB prinzipiell ein 
Modell mit einer hoheren Likelihood auch 
die bessere Anpassung an die Daten auf- 
weist. Diese Art der Modellgeltungskon- 
trolle wird in Kapitel 5.1 behandelt. 

Zweitens laBt sich priifen, wie gut sich mit 
einem Testmodell die beobachteten Daten 
reproduzieren lassen. Dabei konnen die 
Haufigkeiten der unterschiedlichen Ant- 
wortpattern als jene Daten gelten, die es 



zu reproduzieren gilt. Modellgeltungskon- 
trollen im Sinne der Reproduzierbarkeit 
der Patternhaufigkeiten werden in Kapitel 
5.2 behandelt. 

Drittens kann man gezielt bestimmte An- 
nahmen des Modells zum Gegenstand 
einer Modellgeltungskontrolle machen. 
Derartige Modellgeltungstests werden in 
Kapitel 5.3 beschrieben. 

5.1 Modellvergleiche an- 
hand der Likelihood 

In den vorangegangenen Kapiteln wurde 
schon mehrfach gesagt, daB die Likeli- 
hood der Daten unter einem bestinmiten 
Modell sc hr viel dariiber aussagt, wie gut 
das Modell auf die Daten paBt: Je holier 
die Likelihood ist, desto besser erklart das 
Modell die Daten. 

Die Likelihood ist ganz allgemein defi- 
niert als das Produkt der Pattemwahr- 
scheinliclikeiten iiber alle Personen: 

N 

(!) L=rip(*v). 

V— 1 

Da Personen mit demselben Antwortpat- 
tem x v auch stets dieselbe Wahrschein- 
lichkeit ihres Patterns haben, laBt sich die 
Likelihood folgendeimaBen selircibcn 

(2) L = np(x) n( - } . 

X 

wobei n(x) die Haufigkeit bezeichnet, 
mit der das Pattern x in der Testdaten- 
matrix auftritt. Wurde ein Pattern nicht 
beobachtet, so ist diese Haufigkeit 0, und 
der entsprechende Laktor gleich 1, so daB 
die Wahrscheinlichkeiten nicht beobachte- 
ter Pattern die Likelihood nicht beeinflus- 
sen. 
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Die Werte von Likelihoodfunktionen wer- 
den sehr klein, da sie aus dem Produkt von 
N k Wahrsehcinliehkeiten bestehen. Die 
GroBenordnung der Likelihoodwerte ist 
daher im wesentlichen durch die Anzahl 
der Personen N und die Anzahl der Items 
k bestimmt. Um zu interpretierbaren Wer- 
ten zu gelangen, ist es daher sinnvoll, aus 
diesem Produkt wiederum die (N k)-te 
Wurzel zu ziehen. Damit erhalt man einen 
Wahrscheinlichkeitswert, der wieder in der 
GroBenordnung der Wahrscheinlichkeit 
einer einz einen Itemantwort liegt. Dieser 
Wert 

(3) L = N 'VL 

ist das geometrische M ittel aller Antwort- 
wa h rse lie i n I i e h ke i te n . 

Arithmetisches und geometrisches 
Mittel 

Wahrend das arithmetische Mittel von N 
Zahlen definiert ist als die Summe dieser N 
Zahlen dividiert durch N 

N 

£ x v 
v _ v= 1 

A a - N ’ 

ist das geometrische Mittel liber das 
Produkt dieser N Zahlen definiert. Der 
Division durch N entspricht beim geome- 
trischen Mittel die Ziehung der N-ten 
Wurzel: 

x g = J n x v 

Das geometrische Mittel ist die Zahl, die 
N-mal mit sich selbst multipliziert wieder- 
um das Produkt ergibt: 




V— 1 



Der Nachteil des geometrischen Mittel- 
werts von Walirscheinlichkeiten besteht 
darin, daB er stets kl einer ist als das arith- 
metische Mittel. Nimmt man etwa die 
folgenden neun Walirscheinlichkeiten 

0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 

so ist deren arithmetisches Mittel 0.5. Das 
geometrische Mittel derselben Zahlen 
betragt jedoch nur 0.4147, ist also 
wesentlich kleiner. Nur mit dieser Ein- 
sclnankung kann man L als eine mittlere 
Antwortwahrscheinlichkeit interpretieren. 



Datenbeispiel 

Fiir das Datenbeispiel des KFT mit 5 
Items und 300 Personen (vgl. Kap. 3.1) 
ergeben sich die folgenden Likelihood- 
werte fur das Einklassenmodell der 
Klassenanalyse, die Zweiklassenlosung 
und das Rasch-Modell. 





logL 


L 


1 Klasse 


-990.85 


.516 


2 Klassen 


-850.55 


.567 


Rasch-Modell 


-854.83 


.566 



In der Tabelle sind die logarithmierten 
Likelihoodwerte (die sog. ‘Loglikeli- 
hoods’) aufgefiihrt, da die unlogarith- 
mierten Werte so klein sind, daB sie ein 
normaler Taschenrechner gar nicht dar- 
stellen konnte. Die logarithmierten Wer- 
te benotigt man ohnedies, um die (N k)- 
te Wurzel ziehen zu konnen: diese wird 
namlich berechnet, indem man den 
Logarithmus der Likelihood durch N k 
dividiert und das Resultat wiederum de- 
logarithmiert, das heiBt, als Exponent der 
e-Funktion einsetzt. Fiir die erste Zeile 
der Tabelle lautet die Rechnung: 

exp (-990.85/1500) = 0.516. 






5.1 Modellvergleiche anhand der Likelihood 



327 



Die arithmetischen Mittelwerte der Ant- 
wortwalirsehcinliehkeiten sind auch hier 
groBer, so betragt, das arithmetische Mit- 
tel fur die Einklassenlosung 0.532. 

Man sieht an diesen Werten, daB die 
Zweiklassenlosung und das Rasch- 
Modell wesentlich besser auf die KFT- 
Daten passen. 

Das Beispiel macht deutlich, wie man die 
Likelihood bzw. Loglikelihood zur Beur- 
teilung der Modellgultigkeit verwendcn 
kann. Generell ist es so, daB die Log- 
likelihood groBer wird (ihr Absolutbetrag 
also kleiner, da die Loglikelihood immer 
negativ ist), wenn man zusatzliche Para- 
meter einfiihrt. So hat z.B. die Zwei- 
klassenlosung immer eine hohere Loglike- 
lihood als die Einklassenlosung. 

Will man ein Modell anhand der Hohe 
seiner Loglikelihood beurteilen, so muB 
man gleichzeitig beriicksichtigen, wie 

viele Model I para meter es enthalt. 

Irn Fall der Einklassenlosung des Daten- 
beispiels sind 5 Parameter zu schatzen, 
namlich die 5 A nt wort wall rsehc inliehkei- 
ten der Items. Fur die Zweiklassenlosung 
sind es 11 Parameter, namlich die 5 Ant- 
wort wall rse lie i n I ic h ke i ten in beiden Klas- 
sen und ein unabhangiger KlassengroBen- 
parameter. Im Rasch-Modell werden 9 
Parameter geschatzt. 

Die Berechnung der Anzahl unabhangiger 
Modellparameter bei Rasch-Modellen be- 
darf einer Erlauterung, da die Personen- 
parameter hier eine Sonderrolle spielen. 



Die Anzahl der Modellparameter bei 
Rasch-Modellen: uL, CL und mL 

Bei der Likelihoodfunktion, die fur Mo- 
dellvergleiche herangezogen wird, handel 
es sich nicht um die unbedingte Likeli- 
hood (uL) wie sie in Kapitel 3. 1.1.2.; 
durch die Gleichungen (7) und (8) oder in 
Kapitel 4.2.1 durch die Gleichungen (1) 
und (2) definiert ist. In die unbedingt< 
Likelihoodfunktion geht jede Person mit 
einem neuen Parameter ein, was dazu 
fiilirt, daB die Likelihoodwerte nicht mehr 
mit denen von latent-class Modellen ver- 
gleichbar sind. Bei letzteren bringen neue 
Versuchspersonen nur dann weitere Para- 
meter ins Spiel, wenn sie neue latente 
Klassen definieren. 

Auch kann man nicht die bedingte 
Likelihoodfinktion (cL), die zur Schatzung 
der Itemparameter benutzt wird (s. Kap 
4.2.1, Gleichung (12)), fur Modellver- 
gleiche heranziehen. Die bedingte Like- 
lihood beschreibt namlich nicht die 
Wahrscheinlichkeit der Testdaten wie sie 
sind, sondem unter der Bedingung der 
Verteilung der Summenscores. 

Vergleiche mit anderen Testmodellen sind 
allein anhand der marginalen Likelihood 

(mL) moglich, die das Produkt aus der 
bedingten Likelihood und den Scorewahr- 
scheinlichkeiten darstellt (vgl. (16) in 
Kap. 3.1. 1.2.2 und (15) in Kap" 4.2.1): 

k 

(4) mL = ]^[ p(r) nr • cL. 

r=0 

Die bedingte Likelihood ist eine Funktion 
der Itemparameter, enthalt also wegen der 
Sunmiennormiemng k-1 unabhangige Mo- 
dellparameter. Die Scorewahrscheinlich- 
keiten p(r) stellen in der marginalen 
Likelihoodfunktion ebenfalls unbekannte 
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G i d Ben dar und fungieren als Model I - 
para meter, Sie werden durch die relativen 
Haufigkeiten der Summenscores ge- 
schatzt: 



Da von den k+1 S corewahrscheinlichkei- 
ten nur k voneinander unabhangig sind 
(die Summe aller Wahrsehcinliehkciten 
nruB 1 sein), enthalt die marginale 
Likelihood des Rasch-Modells insgesamt 
2k- 1 unabhangige Modellparameter. Tm 
Fall ordinaler Itemantworten sind es bei 
m+1 Antwortkategorien 2mk-l Parameter. 



Nach dieser Berechnung gibt es inr 
Da ten bei spiel 9 unabhangige Modellpara- 
meter fur das Rasch-Modell, wahrend es 
11 Parameter bei der Zweiklassenlosung 
sind. Hier stellt sich die Frage, ob die urn 
vier Punkte hohere Likelihood bei der 
Zweiklassenlosung (-850 gegenuber -854) 
eine bessere Modellgeltung anzeigt, wenn 
man bedenkt, daB zwei Parameter mehr zu 
schatzen sind. 

Es werden Methoden benotigt, die die 
Likelihoods unterschiedlicher Modelle 
vergleichen und dabei die unterschied- 
lichen Parameteranzalrlen berircksichtigen. 

Die beiden folgenden Unterkapitel behan- 
deln zwei solche Methoden, die in ihrer 
Logik selir unterschiedlich sind, sich aber 
auf dieselbe Information stutzen, namlich 
die Loglikelihood und die Parameteran- 
zahl. 



5.1.1 Informationstheoretische 
MaBe 

Die in diesem Kapitel behandelten Krite- 
rien zur Beurteilung der Modellgeltung 
beruhen auf einenr informationstheore- 
tischen Hintergmnd, der hier jedoch nicht 
dargestellt werden kann. Es gibt eine 
Reihe solcher infornrationstheoretischer 
MaBe, die den Wert der Likelihoodfunk- 
tion nrit der Parameteranzahl in Beziehung 
setzen. Es handelt sich hierbei urn soge- 
nannte Straffunktionen (penalty functions), 
da ein Anstieg der Likelihood nrit den zu- 
satzlich investierten Parametem ‘bestraft’ 
wird. 

Der historisch erste dieser Indizes ist der 
AIC, der nach seinenr Autor Akaike be- 
nannt ist: Akaikes information criterion. 

Er ist durch folgenden Ausdruck definiert. 

(1) AIC = -2 log L + 2 Dp, 

wobei n p fur die Anzahl unabhangiger 
Modellparameter steht. Ein Modell ist 
nach diesem Kriterium umso besser je 
kleiner sein AIC -Wert ist. 



Datenbeispiel 



Fur die drei Modelle inr KFT-Datenbei- 
spiel lauten die AlC-Werte 





Log L 


n P 


AIC 


1 Klasse 


-990.85 


5 


1991.7 


2 Klassen 


-850.55 


11 


1723.1 


Rasch-Modell 


-854.83 


9 


1727.6 



Nach diesen Ergebnissen paBt die Zwei- 
klassenlosung besser als das Rasch-Mo- 
dell, da hier der AIC -Wert kleiner ist. 
Demnach ist es fur die 5 Items aus denr 
KFT wichtiger, unterschiedliche Item- 
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schwierigkeiten fur die Konner und die 
Nichtkonner anzunehmen (Zweiklassen- 
losung) als bei konstanten Itemparametern 
fiir alle Personen ein Kontinuum von 
Fahigkeiten anzunehmen (Rasch-Modell). 



Beim AIC -Index wird in keiner Weise der 
Stichprobenumfang, das heiBt, die Anzahl 
der Personen N beriicksichtigt. Dies ver- 
sucht das sogenannte Schwartz-Kriterium 
oder auch Best Information Criterion, 
BIC, genannt auszugleichen. 

(2) BIC = -2 log L + (log N) Dp, 

Im Vergleich zum AIC wird hier die ‘2’ als 
Koeffizient der Parameteranzahl durch den 
Logarithmus der StichprobengroBe N 
ersetzt, was im allgemeinen ein wesentlich 
groBerer Koeffizient ist. Die folgende 
Tabelle gibt einen Eindruck von der 
GroBenordnung des Logarithmus von N. 



log N 


N 


2 


>7 


3 


>20 


4 


>54 


5 


>148 


6 


>403 


7 


>1096 



Fiir das Datenbeispiel ergeben sich folgen- 
de BIC-Werte: 





BIC 


CAIC 


1 Klasse 


2010.2 


2015.2 


2 Klassen 


1763.8 


1774.8 


Rasch-Modell 


1761.0 


1770.0 



Hier zeigt sich die zentrale Problematik 
dieser Indizes: Die SchluBfolgerung dreht 
sich fiir den BIC, im Vergleich zum AIC 
um: das Rasch-Modell hat den niedrigsten 
BIC-Wert. Unter Beriicksichtigung der 
StichprobengroBe paBt offensichtlich das 



Rasch-Modell besser auf die Daten als die 
Zweiklassenlosung. 

Zuletzt sei noch ein dritter Index genannt, 
der sogenannte CAIC, der folgendermaBen 
definiert ist: 

(3) CAIC = -2 log L +(log N) . n p + n p , 

wobei CAIC fiir consistent AIC steht und 
eine Korrektur des AIC daistel It, die auch 
bei groBerem Stichprobenumfang konsi- 
stent sein soil. 

Beziiglich der Interpretation des Datenbei- 
spiels ergeben sich keine Veranderungen 
im Vergleich zum BIC. Die Uberlegenheit 
des Rasch-Modells wird eher noch deut- 
licher. 

Mit Hilfe dieser Straffunktionen lassen 
sich die beiden Giitekriterien fiir Theorien, 
das Kriterium der empirischen G ulti gkeit 
und das Einfachheitskriterium rein rech- 
nerisch miteinander verkniipfen. Es zeigt 
sich jedoch auch, daB es fiir die Ver- 
kniipfung keine mathematisch beweisbare 
Funktion gibt, sondern stets gewisse Be- 
liebi gkeit bei der Auswahl eines Index 
herrscht. 

Trotzdem ist der Wert dieser Informa- 
tionskriterien bei der praktischen Testana- 
lyse nicht zu unterschatzen. Geben sie 
doch erste, einfach interpretierbare Hin- 
weise darauf, welches Testmodell das Ant- 
wortverhalten wie gut reprasentiert. Als 
grobes Auswahlkriterium kann gelten, daB 
der AIC bei kleinen Itemanzahlen mit 
groBen Patternhaufigkeiten, der BIC bei 
groBen Itemanzahlen und kleinen Pattern- 
haufigkeiten vorzuziehen ist. 

Ein Vorteil von diesen InformationsmaBen 
besteht darin, daB Modelle miteinander 
verglichen werden konnen, die in keiner 
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hierarchischen Beziehung zueinander ste- 
hen, wie eben z.B. die Zweiklassenlosung 
der Klassenanalyse und das Rasch-Modell. 
Das ist mit den im nachsten Kapitel be- 
handelten Likelihoodquotiententests nicht 
mbglich. 

Ein Nachteil dieser InformationsmaBe be- 
steht darin, daB es keine Anhaltspunkte 
dafiir gibt, um wieviel kleiner ein Index 
sein muB, um daraus den SchluB zu 
ziehen, daB das Modell besser paBt als ein 
anderes. Rein theoretisch reicht hier schon 
ein Unterschied hinter deni Komnia aus, 
um von einer besseren Modellanpassung 
zu sprechen. 

Diese Art rein qualitativer Modellverglei- 
che deckt sich nicht mit deni iiblichen 
statistischen Denken, nach deni ein beob- 
achteter Unterschied groBer sein muB als 
eine gewisse kritische Grenze, um dann 
von einem 'signifikanten’ Unterschied zu 
sprechen. Audi hierin unterscheiden sich 
die im folgenden behandelten Likelihood- 
quotiententests. 

5.1.2 Likelihoodquotiententests 

Mit sogenannten Likelihoodquotienten- 
tests (englisch: likelihood ratio tests) las- 
sen sich ebenfalls die Likelihoods von 
zwei unterschiedlichen Modellen mitein- 
ander vergleichen. Ein Likelihoodquotient 
ist der Quotient zweier Likelihoodwerte 
derselben Datenmatrix unter zwei unter- 
schiedlichen Modellen: 

(1) LR = ^. 

Beziiglich der beiden Likelihoods im 
Zahler und im Nenner miissen die folgen- 
den drei Bedingungen erfiillt sein: 



1. Das Modell, dessen Likelihood im 
Nenner steht, muB ein echtes 0 bermo- 
dell von deni Modell des Zahlers sein. 
Das heiBt, das Zahlermodell muB sich 
durch eine Restriktion der Parameter 
des Nennermodells darstellcn lassen. 
Aus diesem Grand wird die Likelihood 
des Zahlers auch L (l genannt (in Anleh- 
nung an die Null-Hypothese der Infe- 
renzstatistik). 

2. Das restriktivere Modell im Zahler darf 
nicht durch Null-Setzen einzelner Pa- 
rameter aus deni allgemeineren Modell 
hervorgehen. Dies ist eine sein - ein- 
schrankende Bedingung. Vergleicht 
man z.B. Modelle mit unterschiedli- 
chen Klassenanzahlen miteinander, so 
ergibt sich das Modell mit einer nie- 
drigeren Klassenanzahl durch die 
Lixierung aller Parameter einer (oder 
me lire re i') Klassen auf Null. In diesem 
Pall ist die Verteilung der Priifstatistik 
(S.U.) unbekannt. 

3. Es muB fur das allgemeinere Modell 
im Nenner die M odel I gul ti gkei t bereits 
nachgewiesen sein. 

Sind diese drei Bedingungen erfiillt, so 
kann man den Likelihoodquotienten in 
eine % 2 -verteilte Priifstatistik umwandeln: 

(2) -2 log(LR) — » % 2 , 

das heiBt, der doppelte negative Logarith- 
mus eines Likelihoodquotienten ist bei 
hinreichend groBer Datenmenge % 2 -ver- 
teilt. 

Die Anzahl der Freiheitsgrade fur diese 
X 2 -Verteilung entspricht der Differenz 
zwischen Parameteranzahl des Nenner- 
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modells minus Parameteranzahl des Zah- 
Icrmodclls: 

df = n p (L 1 )-n p (L 0 ). 



Was ist ein % 2 -Test? 

Ein X~-Test (Chi-quadrat) ist ein Signifi- 
kanztest, d.h. ein Verfahren, mit dem man 
eine statistische Hypothese priifen kann. 
‘Signifikanz’ he i lit ‘Bedeutsamkeit' und der 
Begriff ‘Signifikanztest’ bezeichnet die 
Prufung (=Test), ob die Abweichung einer 
anhand der Daten berechneten Gib Be 
(=Priifgr68e) von dem Idealwert, den diese 
GroBe bei Geltung der Hypothese an- 
nimmt, bedeutsam, also signifikant ist. 
Voraussetzung fiir die Durchfuhrung eines 
Signifikanztests ist daher, daB eine 
PriifgroBe bekannt ist, deren Verteilung 
bei Geltung der statistischen Hypothese 
man kennt (= Priifverteilung). Wenn man 
fiir jeden moglichen Wert der PriifgroBe 
sagen kann, wie wahrscheinlich er bei 
Geltung der Hypothese ist, kann man 
entscheiden, ob die statistische Hypothese 
eher wahrscheinlich oder eher unwahr- 
scheinlich ist. Ublicherweise heiBt ‘un- 
wahrsehcinlieh' daB die Au ftretenswahr- 
scheinlichkeit eines Wertes kleiner als 
p = 0.05 oder 5% ist. Diese Grenze ist die 
Signifikanzgrenze oder das Signifi kanz- 
niveau. 

Im Falle des % 2 -Tests ist die Prufver- 
teilung die ^--Verteilung. Anders als z.B. 
bei der Nomialverteilung hangt die Form 
der y }- Verteilung von ihren sogenannten 
Freiheitsgraden ab. Um eine PrufgroBe 
anhand der y }- Verteilung testen zu kon- 
nen, muB man die Anzahl der Freiheits- 
grade der % 2 -Verteilung kennen. Den kri- 
tischen Wert fiir die PriifgroBe, d.i. der 
Wert, der nur mit einer Walirsehcinliehkeit 



kleiner als 0.05 iiberschritten wird, kann 
man in einer % 2 -Tabelle nachschauen. Die 
statistische Hypothese wird verworfen, 
wenn der eiTechnete Wert der PriifgroBe 
grofter ist als der kritische Wert, also 
unwalirsehcinlieher als 5%. 



Datenbeispiel 

Es soil die Geltung der Zweiklassenlosung 
fiir das KFT-Datenbeispiel mit der restrin- 
gierten Zweiklassenlosung verglicher 
werden, in der angenommen wird, daB 
eine Klasse von Konnem alle Items mit 
90%iger Wahrscheinlichkeit lost (vgl. das 
Datenbeispiel in Kapitel 3. 1.2.3). Diese: 
Modell hat eine Loglikelihood von -899.5 
bei nur 6 zu schatzenden Parametem. Die 
unrestringierte Zweiklassenlosung hat die 
Likelihood -850.5 bei 11 zu schatzenden 
Parametern. 

Der Logarithmus des Likelihoodquotien- 
ten ist gleich der Differenz der Loglikeli- 
hoods, das heiBt, es gilt 

log( LR) = log( L 0 ) - log(L,). 

Der logarithmierte Likelihoodquotienl 
betragt in diesem Fall 

-899.5 -(-850.5) =-49. 

Die zugehorige % 2 -Verteilung hat 11 - 6 = 
5 Freiheitsgrade und laut % 2 -Tabelle liegt 
die 5%-Grenze bei 11.07. Das bedeutet: 
der errechnete Wert von 

-2 • (-49) = 98.0 

liegt weit auBerhalb der Signifikanzgren- 
ze, womit die Annahme verworfen werden 
muB, daB es eine Klasse von Konnem 
gibt, die alle Items mit 10%iger Irrtums- 
wahrscheinlichkeit Ibsen. 
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Anders verhalt es sich mit der Hypothese, 
daB die Klassen der Konner und Nicht- 
konner gleich groB sind (vgl. ebenfalls 
Kapitel 3. 1.2.3). Die Loglikelihood dieses 
Modells betragt -850.9 und ist demnach 
nur um 0.4 Punkte kleiner als die Like- 
lihood der unrestringierten Zweiklassenlo- 
sung. Der daraus berechnete % 2 -Wert von 
0.8 gehort zu einer % 2 -Verteilung mit 
einem Freiheitsgrad, da lediglich ein Klas- 
sengroBenparameter auf 0.5 fixiert wurde. 
Der kritische Wert der % 2 -Verteilung mit 
einem Freiheitsgrad betragt 3.84, womit 
der empirische Wert von 0.8 nicht 
signifikant ist. Die Hypothese, daB die 
Klassen der Konner und Nichtkonner 
gleich groB sind, kann beibehalten werden. 



Likelihoodquotienten beziehen wie die in- 
formationstheoretischen MaBe sowohl den 
Wert der Likelihoodfunktion als auch (in- 
direkt iiber die Freiheitsgrade der Priif- 
verteilung) die Anzahl der geschatzten Pa- 
rameter ein. Auch hier wird also das Gul- 
tigkeitskriterium gemeinsam mit dem Ein- 
fachheitskriterium beriicksichtigt . 

Der Vorteil von Likelihoodquotiententests 
ist darin zu sehen, daB sie eine statistische 
Absicherung des Unterschieds der Likeli- 
hoods zweier Modelle unter Beriicksich- 
tigung der Parameteranzahl erlauben. So- 
mit laBt sich eindeutig aussagen, ob ein 
bestimmtes Modell besser auf die Daten 
paBt als ein anderes Modell. 

Die Nachteile von Likelihoodquotienten 
liegen darin, daB die Voraussetzungen fur 
ill re Berechnung oft nicht erfiillt sind. So 
laBt sich z.B. mit Hilfe eines Likeli- 
hoodquotienten nicht testen, ob ein quan- 
titatives Testmodell oderein Klassenmo- 
dell besser auf die Daten paBt, da beide 
nicht in einer hierarchischen Beziehung 



zueinander stehen, d.h. das eine Modell 
ein Obermodell des anderen ist. Auch geht 
sehr oft das restriktivere Modell durch 
Fixierung von Wahrschcinlichkeiten auf 0 
aus dem allgemeineren hervor, so daB die 
Priifverteilung nicht gilt. Auch die dritte 
Voraussetzung, die Giiltigkeit des allge- 
meineren Modells, ist oft nicht gegeben, 
da man diese nicht immer priifen kann. 

Am meisten Probleme bereiten jedoch die 
Voraussetzungen bezuglich der Datenmen- 

ge, auf die bisher noch gar nicht eingegan- 
gen wurde. Die Voraussetzung dafiir, daB 
die Priifstatistik -2 log (LR) annahernd 
X 2 -verteilt ist, besteht namlich darin, daB 
die erwarteten Pattern ha ufgkei ten min- 
destens den Wert 1 haben. Dies ist in 
unserem kleinen Datenbeispiel mit 5 Items 
zwar annahernd gegeben, jedoch kann 
bereits bei 10 Items mit 1024 unter- 
schiedlichen Antwortpattern davon ausge- 
gangen werden, daB diese Voraussetzung 
selbst bei groBen Personenstichproben 
nicht erfiillt ist. Somit entfallt die Grund- 
lage der inferenzstatistischen Absicherung 
des Likelihoodquotienten, und damit sein 
entscheidender Vorteil. 

Als Fazit kann festgehalten werden, daB 
sich der Likelihoodquotient besonders 
dann eignet, wenn man anhand von klei- 
nen Itemanzahlen gezielt Hypothesen 
testen will, die sich aufgrund von Pa- 
rameterrestriktionen eines Modells darstel- 
len lassen. 

Ein Spezialfall, und vielleicht die 
haufigste Anwendung des Likelihoodquo- 
tienten besteht darin, die Likelihood eines 
Modells gegen die des saturierten Modells 
zu testen. 
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Saturiertes Modell 



Unter einem saturierten Modell versteht 
man das Modell, das die beobachteten Da- 
ten peifekt erklaren kann und soviele Para- 
meter enthalt wie es unabhangige Daten 
gibt. Die Likelihood des saturierten Mo- 
dells ist allein eine Funktion der Pattern- 
haufigkeiten: 



(3) L sa t = n 



n(x) 

N 



\n(x) 



Die Patternwahrscheinlichkeiten p(x) 
stellen die Modellparameter des saturier- 
ten Modells dar und werden durch die 
relativen Haufigkeiten der Pattern ge- 
schatzt. Somit hat dieses Modell tat- 
sachlich soviele Modellparameter wie es 
Antwortpattern gibt, von denen jedoch 
einer abhangig ist. 



Der Vorteil von Modell vergleichen mit 
dem saturierten Modell liegt darin, dab 
das saturierte Modell nicht irgendeine be- 
liebige Alternative darstellt, sondem es 
das hochste Kriterium verkoipert, das es 
zu erreichen gilt: Ist der Likelihood- 
quotient eines Testmodells beim Vergleich 
mit dem saturierten Modell nicht sig- 
nifikant, so erklart das Modell die Daten 
genauso gut, wie wenn man die Pat- 
ternhaufigkeiten selbst interpretieren 
wiirde. 

Allerdings ist in diesem Fall nicht ausge- 
schlossen, dab auch andere Modelle den 

Vergleich mit dem saturierten Modell 
‘aushalten’. Die Schlubfolgerung kann also 
nicht sein, dab das ausgewahlte Testmo- 
dell das einzige Modell ist, das die Daten 
erklart, sondern nur ei n Modell unter mog- 
licherweise mehreren. 



Ein Nachteil besteht darin, dab ein nega- 
tives Ergebnis des Modellvergleichs (das 
heibt, das saturierte Modell pabt besser) 
wenig daruber aussagt, welche Modell- 
annahmen verletzt sind. Bei Modellver- 
gleichen zwischen zwei ahnlichen Model- 
len oder zwei Modellen, die sich in einem 
bestimmten Merkmal unterscheiden, ist die 
Schlubfolgerung wesentlich eindeutiger. 



Datenbeispiel 

In dem Datenbeispiel hat das saturierte 
Modell die Loglikelihood -830.4 mit 31 
unabhangigen Parametem. Testet man die 
Geltung des Rasch-M odells gegen das 
saturierte Modell, so betragt die Priifgrobe 

-2 -(-854. 8 + 830. 4) = 48. 8 . 

Die % 2 -Verteilung hat 31 - 9 = 22 
Freiheitsgrade, so dab das Rasch-Modell 
nicht auf die Daten pabt (der kritische 
Wert betragt bei 22 Freiheitsgraden 33.9). 

Dasselbe trlfft auf die Zweiklassenlosung 
der Klassenanalyse zu, fur die der empiri- 
sche Wert der Priifstatistik bei 20 Frei- 
heitsgraden 40.3 betragt (die kritische 
Grenze der % 2 -Verteilung betragt 31.4). 

Lediglich die Zweiklassenlosung des 
mixed Rasch-M odells (vgl. Kap. 3.1.3) 
weist beim Vergleich mit dem saturierten 
Modell eine gute Modellanpassung auf: 
Die Loglikelihood betragt -841, so dab die 
Priifstatistik den Wert 21.2 annimmt, was 
bei 14 Freiheitsgraden unterhalb der kri- 
tischen Grenze liegt (23.7). 



Auch fur Modellvergleiche mit dem satu- 
rierten Modell miissen die asymptotischen 
Voraussetzungen (Erwartungswert der 
Pattemhaufigkeiten grober als 1) erfullt 
sein. Sind diese nicht erfullt, so bietet sich 
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ein Vergleich iiber informationstheoreti- 
sche MaBe an (vgl. Kap. 5.1.1). Bei sehr 
vielen Items ist allerdings auch dieser Ver- 
gleich problematisch, da die Anzahl der 
Modellparameter im saturierten Modell 
immens groB werden kann und diese Indi- 
ces dann wenig aussagekraftig sind. 



Literatur 

Informationstheoretische Kriterien der 
Modellgeltung behandeln Bozdogan 
(1987) und Read & Cressie (1988). Like- 
lihoodquotiententests werden im Rahmen 
der allgemeinen Maximum-Likelihood 
Theorie (Kendall & Stuart 1973) und der 
Kreuztabellen-Analyse (Bishop et al. 
1975) dargestellt. 



Welches Modell paBt nach infor- 
mationstheoretischen Kriterien am 
besten? 

3. Berechnen sie mit WINMIRA den 
Likelihoodquotienten zwischen dem 
Ratingskalen-Modell und dem ordi- 
nalen Rasch-Modell fur die NEOFFI- 
Daten. Ist die Annahme gleicher 
Schwellenabstande danach gerecht- 
fertigt? 



Ubungsaufgaben 

1. Fiir die KFT-Daten betragt die Fog- 
likelihood des saturierten Modells 
-830.4. Wie groB ist das geometri- 
sche Mittel der Antwortwalirschein- 
lichkeiten in diesem Modell? Wie 
groB ist der BIC-Wert des saturierten 
Modells? 

2. Die folgende Tabelle zeigt die Fog- 
likelihoods der ESU-Daten aus Kapi- 
tel 3.2 fur das 2-, 3- und 4-Klassen- 
modell sowie fiir das saturierte Mo- 
dell: 



2 Klassen 


-4513.5 


3 Klassen 


-4458.1 


4 Klassen 


-4432.5 


saturiert 


-4100.4 
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5.2 Reproduzierbarkeit der 
Patternhaufigkeiten 

Hat man die Parameter eines bestimmten 
Testmodells geschatzt, so hat jedes mog- 
liche Antwortpattern in einem Test eine 
bestimmte, aufgrund des Modells und sei- 
ner Parameter zu berechnende Auftretens- 
wahrsehcinliehkeit. Ein direkter Weg der 
Modellgeltungskontrolle besteht daher 
darin, diese erwarteten Patternhaufig- 
keiten mit den tatsachlich beobachteten 
Haufigkeiten zu vergleichen. 

Bei deterministischen Testmodellen, wie 
z.B. bei der Guttman-Skala (Kap. 3. 1.1.1) 
oder beirn Modell deterministischer Klas- 
sen (Kap. 3. 1.2.1) ist diese Methode der 
Modellgeltungskontrolle die einzig sinn- 
volle. Solche deterministischen Modelle 
unterscheiden generell zwischen zulassi- 
gen und unzulassigen Antwortmustern, 
das heiBt, viele Antwortpattern haben die 
erwartete Haufigkeit von 0, wahrend alle 
anderen Pattern mit beliebiger Haufigkeit 
auftreten diirfen. 

Hier gestaltet sich der Vergleich zwischen 
beobachteten und erwarteten Patternhau- 
figkeiten denkbar einfach, indem man 
lediglich nachschaut, ob unzulassige Ant- 
wortpattern auftreten oder nicht. 

Bei probabilistischen Testmodellen hat 
jedes Antwortpattern eine Auftretenswahr- 
scheinlichkeit, auch wenn diese oft sehr 
klein ist. Hier gilt es, die erwarteten mit 
den beobachteten Haufigkeiten quantitativ 
zu vergleichen. 



Datenbeispiel 

Die folgende Tabelle zeigt fur das KFT- 
Datenbeispiel die beobachteten Pattem- 
haufigkeiten und die unter drei verschie- 
denen Testmodellen erwarteten Pattem- 
haufigkeiten. 



X 


RM 


LCA 


2 MR 


n ( x ) 


0 


0 


0 


0 


0 


58.0 


51.6 


57.8 


58 


0 


0 


0 


0 


1 


2.2 


6.8 


2.5 


4 


0 


0 


0 


1 


0 


3.4 


2.3 


2.8 


2 


0 


0 


0 


1 


1 


0.4 


0.4 


0.3 


1 


0 


0 


1 


0 


0 


6.5 


10.3 


5.7 


11 


0 


0 


1 


0 


1 


0.9 


1.5 


0.9 


2 


0 


0 


1 


1 


0 


1.3 


0.7 


1.0 


1 


0 


0 


1 


1 


t 


0.5 


0.3 


0.4 


1 


0 


1 


0 


0 


0 


13.6 


11.7 


11.9 


8 


0 


1 


0 


0 


1 


1.8 


2.1 


1.9 


1 


0 


1 


0 


1 


0 


2.7 


1.8 


2.0 


2 


0 


1 


1 


0 


0 


5.2 


4.1 


4.3 


3 


0 


1 


1 


0 


1 


1.9 


2.1 


2.0 


1 


0 


1 


1 


1 


0 


2.8 


4.0 


2.5 


2 


0 


1 


1 


1 


1 


2.7 


3.6 


7.7 


8 


1 


0 


0 


0 


0 


22.2 


29.5 


24.6 


23 


1 


0 


0 


0 


1 


2.9 


4.2 


4.4 


7 


1 


0 


0 


1 


0 


4.4 


2.1 


2.3 


2 


1 


0 


1 


0 


0 


8.6 


7.0 


9.1 


6 


1 


0 


1 


0 


1 


3.1 


1.9 


4.6 


2 


1 


0 


1 


1 


0 


4.6 


2.7 


2.6 


2 


1 


0 


1 


1 


1 


4.4 


2.3 


4.3 


3 


1 


1 


0 


0 


0 


17.7 


12.2 


19.2 


21 


1 


1 


0 


0 


1 


6.3 


6.4 


19.7 


10 


1 


1 


0 


1 


0 


9.6 


12.2 


5.5 


8 


1 


1 


0 


1 


1 


9.0 


11.1 


8.9 


10 


1 


1 


1 


0 


0 


18.6 


18.7 


20.4 


24 


1 


1 


1 


0 


1 


17.4 


16.4 


6.4 


6 


1 


1 


1 


1 


0 


26.5 


34.7 


33.2 


33 


1 


1 


1 


1 


1 


38 


32.3 


38.5 


38 



Es zeigt sich, daB die Zweiklassenlosung 
des mixed Rasch-Modells die beobach- 
teten Patternhaufigkeiten am besten re- 
produziert, wohingegen bei zwei Klassen 
der latent-class Analyse und beim Rasch- 
Modell die Abweichungen einzelner Pat- 
ternhaufigkeiten groBer sind. 




336 



5. Modellgeltungstests 



Ein Modelltest hat die Gesamtheit aller 
Abweichungen zu beriicksichtigen. Diese 
Prufung kann mittels der Pearson ’sehen 
% 2 -Statistik erfolgen, die folgendermaBen 
definiert ist: 

(o x -e x ) 

(1) CHI^X P • 

x e i 

o x bezeichnet die beobachtete Haufigkeit 
des Pattern x (o wie ‘observed = beob- 
achtet’) und ex die unter dem jeweiligen 
Modell erwartete Patternhaufigkeit. Diese 
Priifstatistik ist % 2 -verteilt, wobei die An- 
zahl der Freiheitsgrade gleich der Anzahl 
der Antwortpattern minus der Anzahl un- 
abhangiger Modellparameter minus 1 ist: 

df = m k - n p - 1 . 

Sornit hat diese % 2 -Statistik zum Vergleich 
beobachteter und erwarteter Pattemhau- 
figkeiten diesel be Anzahl von Freiheits- 
graden wie der Likelihoodquotient eines 
Modells im Vergleich zum saturierten 
Modell (vgl. Kap. 5.1.2). Tatsachlich sind 
beide Prufstatistiken annahernd Equivalent 
und ftihren in der Regel zu denselben 
Ergebnissen. 



Datenbeispiel 

Fur das KFT-Datenbeispiel ergeben sich 
fur drei unterschiedliche Modelle die fol- 
genden / 2 -Werte 



-2 log (LR) CHI df 



2 Klassen 


40.3 


38.7 


20 


Rasch-Modell 


48.8 


49.4 


22 


2 Kl. mixed 








Rasch-Modell 


21.2 


18.3 


14 



Wie auch beirn Likelihoodquotiententest 
zeigt sich hier, daB lediglich die Zwei- 
klassenlosung des mixed Rasch-Modells 
einen nicht-signifikanten % 2 -Wert be- 
sitzt, das heiBt, die Daten hinreichend 
gut reproduziert (s. die % 2 -Tabelle im 
Anhang). 

Der Vorteil dieses % 2 -Tests besteht darin, 
daB man den Grand fur signifikante 
Modellabweichungen leichter rekonstruie- 
ren kann: Da sich der x 2 -Wert aus den 
quadrierten Abweichungen von beobach- 
teten und erwarteten Haufigkeiten zusam- 
mensetzt, kann man zuriick verfolgen, 
welche Antwortpattern besonders zu dem 
hohen % 2 -Wert beitragen. Im Datenbei- 
spiel sind dies vor allem die Pattern 
x = (00100) und x = (11 101). 

Die Prufung, welche Antwortpattern fur 
eine fehlende Modellanpassung verant- 
wortlich sind, nennt man auch Residuen- 
analyse (‘Residuum' bedeutet so viel wie 
‘Rest’). Bei einer Residuenanalyse sieht 
man sich an, welche ‘Reste’ an beobach- 
teten Haufigkeiten iibrig bleiben, wenn 
man die unter dem Modell erwarteten 
Haufigkeiten abzieht. 

Der Nachteil dieser % 2 -Statistik ist im 
wesentlichen derselbe wie bei einem Like- 
lihoodquotiententest zwischen Modell und 
saturiertem Modell: Fur groBere Tests sind 
die asymptotischen Bedingungen dieser 
Priifstatistik nicht erfullt. Darunter ver- 
steht man die Notwendigkeit einer hinrei- 
chend groBen Datenmenge, die im Fall der 
X 2 -Statistik so groB sein sollte, daB alle 
erwarteten Haufigkeiten groBer als Eins 
sind. Wenn es viele Antwortpattern gibt, 
die gar nicht beobachtet wurden oder 
einen zu geringen Erwartungswert haben. 
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folgt die PriifgroBe nicht mehr einer % 2 - 
Verteilung. 

Es gibt zwei Auswege aus dieser Situation. 
Ein Weg besteht darin, eine solche % 2 -Prii- 
fung nicht mit den einzelnen Pattemhau- 
figkeiten vorzunehmen, sondern mit ag- 
gregierten Daten, das sind die zusam- 
mengefaBten Haufigkeiten mehrerer Pat- 
tern. Mit jeder Zusammenfassung von 
Patternhaufigkeiten wird die Modellprii- 
fung jedoch weniger streng, da sich 
moglicherweise vorhandene Abweichun- 
gen von beobachteten und erwarteten Hau- 
figkeiten durch die Summenbildung aus- 
gleichen und gegenseitig aufheben kon- 
nen. 

Es kommt faktisch einer Aggregation von 
Pattern gleich, wenn man die % 2 -Priifung 
jeweils fur kleinere Gruppen von Items 

durchfiihrt. Besteht ein Test z.B. aus 10 
Items und nimmt man die Priifung fiir die 
ersten und die letzten 5 Items getrennt vor, 
so aggregiert man bei der Auszahlung der 
Patternhaufigkeiten fiir die ersten 5 Items 
jeweils iiber alle Pattern der restlichen 5 
Items. Im folgenden Beispiel ergibt sich 
die Haufgkeit des Patterns (110 0 1) bei 
den ersten 5 Items aus der Summe der 
Patternhaufigkeiten aller 10 Items, bei 
denen die ersten 5 genau dieses Muster 











Item 










1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


1 


1 


0 


0 


1 


0 


0 


0 


0 


0 


1 


1 


0 


0 


1 


0 


0 


0 


0 


1 


1 


1 


0 


0 


1 


0 


0 


0 


1 


0 


1 


1 


0 


0 


1 


0 


0 


0 


1 


1 


1 


1 


0 


0 


1 


0 


0 


1 


0 


0 


1 


1 


0 


0 


1 


1 


1 


1 


1 


1 



Dieses Vorgehen kann in manchen Fallen 
sinnvoll sein, insbesondere wenn man an- 
hand der Residuen bestimmte Hypothesen 
iiber moglicherweise unter- oder iiberre- 
prasentierte Antwortmuster iiberpriifen 
will. 

Im allgemeinen ist jedoch die Frage, wel- 
che Pattern man zusammenfaBt, nur mit 
einer gewissen Beliebigkeit zu beantwor- 
ten. 

Der zweite Ausweg aus der Situation, daB 
schon bei Tests mittlerer Lange die Priif- 
verteilung nicht mehr der % 2 -Verteilung 
entspricht, besteht darin, die Priifvertei- 
lung iiber simulierte Daten zu ermitteln. 
Als simulierte (dt. ‘ahnlich gemachte’) Da- 
ten bezeichnet man Daten, die mittels 
eines Zufallszahlengenerators auf dem 
Computer erzeugt werden. Dabei gibt man 
ein Testmodell einschlieBlich seiner Para- 
meterwerte vor und erzeugt sich auf dem 
Computer Daten, die zu dem Modell pas- 
sen. Von diesen kilns tlichen Daten weiB 
man dann genau, daB das Modell gilt und 
man kennt die wahren Parameterwerte. 



Wie simuliert man Daten? 

Es sollen beispielsweise dichotome Test- 
daten erzeugt werden, fiir die das Rasch- 
Modell gilt. Hierfiir miissen zunachst alle 
Item- und Personenparameter festgelegt 
werden. Mit Hilfe der Modellgleichung 
rechnet man sich fiir jede Person die 
Lbsungswahrscheinlichkeit hinsichtlich je- 
des Items, p vi , aus. Fiir jede einzelne Item- 
antwort wird dann der Zufallszahlengene- 
rator aktiviert, der eine Zufallszahl a vi 
ausgibt, die zwischen 0 und 1 liegt. Alle 
Zahlen zwischen 0 und 1 werden mit glei- 
cher Walirsehcinliehkeit gezogen, d.h. die 
Zufallszahlen sind gleichvertei It. 
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1st die erzeugte Zufallszahl a vi kleiner als 
die Los u ngs wall rse hcinliehkeit p vi , so ist 
die Itemantwort x vi = 1, d.h. es kommt 
eine 1 in die Datenmatrix. Ist a vi > p vi , so 
ist x vi = 0. Auf diese Weise entspricht die 
Wahrscheinlichkeit, eine 1 fur die Daten- 
matrix zu erhalten, genau der Losungs- 
walirsehcinliehkeit. 



Hat man fiir einen echten Datensatz die 
Parameter eines Testnrodells geschatzt, so 
kann man nrit diesen Parameterschatzun- 
gen wiederunr neue, kiinstliche Daten 
sinrulieren. Dies bezeichnet man als Resi- 
mulation, weil man sich die Ausgangsda- 
ten aufgrund der Parameterschatzungen 
zuriick sinruliert. Von solchen resimulier- 
ten Datensatzen we ill man, dab das Mo- 
dell, das man fur die echten Daten inter- 
pretieren will, gilt. 

Um eine Priifverteilung fiir den anhand der 
echten Daten errechneten CHI-Wert zu 
erhalten, resinruliert man viele kirnstliche 
Datensatze, berechnet fiir jeden die betref- 
fende Priifstatistik und beurteilt, ob der 
Wert der echten Daten noch inr Schwan- 
kungsbereich der sinrulierten Werte liegt. 
Dieses Verfahren nennt man das boot- 
strap- V erf ah ren. 



Was ist bootstrapping? 

Bootstraps lie i Ben die Schlaufen an Cow- 
boy-Stiefeln, an denen man die Stiefel 
nochzieht. Die Metapher steht dafiir, dab 
man versucht, sich an den eigenen 
Stiefelschlaufen hochzuheben, so wie 
Baron Miinchhausen sich am eigenen 
Schopf aus denr Sunrpf zieht. Das danrit 
bezeichnete Verfahren der Modellgel- 
tungskontrolle hat etwas von diesenr 
Versuch: Man will wissen, ob ein Modell 
auf die Daten pabt, und beantwortet die 



Frage nrit Hilfe von Daten, die man nrit 
diesenr Modell erzeugt hat. 



Abbildung 142 zeigt die Haufigkeitsver- 
teilung der CHI-Priifgrobe (1) von 100 
Datensatzen, die anhand der Parameter- 
schatzungen des Rasch-Modells fiir die 
KFT-Daten simuliert wurden. 



40 




CHI: <14. 15- 20- 25- 30- 35- >40 

9 19,9 24.9 29.9 34.9 39.9 



Abbildung 142: Haufigkeitsverteilung der CHI- 
Werte fur 100 bootstrap-stichproben 

Der CHI-Wert des echten KFT-Daten- 
satzes betragt 49.4. Ein Vergleich nrit der 
Verteilung in Abbildung 142 ergibt, dab 
ein derart holier Wert auberst selten 
erreicht wird, wenn das Modell gilt. In 
diesem Fall gab es nur 1 von 100 Werten 
in dieser Grobenordnung. Demnach be- 
schreibt das Rasch-Modell die Daten nicht 
hinreichend. 

Da bei diesen Daten nrit 32 Antwortpat- 
tern und 300 Personen die Voraussetzun- 
gen dafiir, dab die Priifgrobe (1) % 2 -ver- 
teilt ist, recht gut erfiillt sind, entspricht 
das Bild der simulierten Haufigkeitsver- 
teilung (Abb. 142) in etwa deni der % 2 - 
Verteilung mit 22 Freiheitsgraden. 

Der Vorteil des bootstrap-verfahrens be- 
steht aber gerade darin, dab man auch fiir 
Datensatze, die die Voraussetzungen der 
% 2 -Verteilung nicht erfiillen, einen Mo- 
delltest zur Veifiigung hat, der ahnlich wie 
ein Signifikanztest funktioniert. 
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Ein Nachteil ist der enorme Rechen- 
aufwand, der hierbei betrieben wird. Die 
bootstrap-Stichproben miissen nicht nur 
simuliert werden (was den geringsten 
Zeitanteil ausmacht), fiir jeden Datensatz 
miissen auch die Modellparameter ge- 
schatzt und die PriifgroBen berechnet 
werden. 



Literatur 

Der Chi-quadrat Test von Pearson ist in 
alien Statistiklelirbiichern enthalten (Bortz 
1977) und wird von Bishop et al. (1975) 
speziell fiir die Kreuztabellenanalyse be- 
handelt. Holland (1981) und Cressie & 
Holland (1983) behandeln den Ansatz fiir 
quantitative Testmodelle, Glas (1988a) 
und Kelderman (1984) fiir Rasch-Modelle. 
Das bootstrap-verfahren als Moglichkeit 
der Modellgeltungskontrolle stellen Efron 
& Tishirani (1993) dar, Resimulationen 
als Mittel der Modellgeltungskontrolle bei 
Klassenmodellen haben erstmals Aitkin et 
al. (1981) angewendet. 



Ubungsaufgaben 

1. Der CHI-Wert fiir das ordinale Rasch- 
Modell betragt bei den 5 Neuroti- 
zismus-Items des NEOFFI-Beispiels 
CHI = 14277.8. PaBt das Modell auf 
die Daten, wenn man einmal annimmt, 
daB die Voraussetzungen fiir die y}- 
Verteilung erfiillt sind (was bei diesen 
Daten nicht der Fall ist)? Wieviele 
Freiheitsgrade hat die zugehorige % 2 - 
Verteilung? 

2. Berechnen Sie mit WINMIRA 10 
bootstrap-Stichproben fiir die 3-Klas- 
senlosung der ESU-Daten (s. Kap. 3.2). 
Wieviele der 10 CHI-Werte sind groBer 
als der CHI-Wert der echten Daten? 
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5.3 Priifung einzelner Mo- 
dellannahmen 

Die dritte Moglichkeit, die Gultigkeit 
eines Testmodells zu uberpriifen, besteht 
darin, zentrale Annahmen des Modells 
gezielt zu uberpriifen. Hierzu gehoren: 

- Die Annahme der Itemhomogenitat, 

das ist die Annahme, dab alle Items 
eines Tests dieselbe Personenvariable 
erfassen. 

- Die Annahme der Personenhomogeni- 

tat, das ist die Annahme, dab alle 
Personen den Test aufgrund der glei- 
chen Personeneigenschaft bearbeiten. 

- Die Annahme der stochastischen Un- 

abhangigkeit, die besagt, dab die 
Wahrscheinlichkeit, zwei Items zu lb- 
sen, gleich deni Produkt der beiden 
einzelnen Losungswahrscheinlichkei- 
ten ist (vgl. Kap. 2.3.3). 

Dariiber hinaus kann noch eine Vielzahl 
von spezifischen Modellannahmen zum 
Gegenstand einer Modellgeltungskontrolle 
gemacht werden. Dies sind meist An- 
nahmen, die auf Parameterrestriktionen 
beruhen, wie z.B. die Annahme, dab zwei 
oder melii' Items dieselbe Schwierigkeit 
haben oder dab ein Item in zwei oder mehr 
Klassen dieselbe Schwierigkeit aufweist. 
Solche Annahmen konnen liber Modell- 
vergleiche mit Hilfe von Likelihoodquo- 
tiententests oder informationstheoretischen 
Maben iiberpriift werden (Kap. 5.1). 

Demgegeniiber sind die drei obengenann- 
ten Modellannahmen genereller Natur und 
mit Abstrichen alien Testmodellen ge- 
meinsam. Genauer betrachtet ist die An- 
nahme der Itemhomogenitat und die der 
stochastischen Unabhangigkeit alien Test- 
modellen gemeinsam, wahrend die Annah- 



me der Personenhomogenitat fur Modelle 
mit latenten Klassen nur eingeschrankt 
gilt: Hier ist durch die Zugehorigkeit zu 
unterschiedlichen latenten Klassen ein ge- 
wisses Mab an Personenheterogenitat ge- 
radezu ein Modellbestandteil. 

Die in diesem Kapitel behandelten Mo- 
delltests stammen primal' aus deni Bereich 
der quantitativen Testmodelle, das heibt 
der Rasch-Modelle. Bei Klassenmodellen 
werden im allgemeinen nur die Modellgel- 
tungskontrollen im Sinne von Kapitel 5.1 
und 5.2 durchgefuhrt. 

Von den drei eingangs genannten Modell- 
annahmen ist die Annahme der stochasti- 
schen Unabhangigkeit am schwersten zu 

uberpriifen. Audi wenn es hierzu einzelne 
Ansatze gibt, gehort die Uberpriifung die- 
ser Annahme derzeit nicht zum Standard- 
vorgehen bei der Testanalyse. Im folgen- 
den wird zunachst auf Tests zur Uberprii- 
fung der Personenhomogenitat und dann 
der Itemhomogenitat eingegangen. 

5.3.1 Priifung der Personen- 
homogenitat 

Die Annahme der Personenhomogenitat 
besagt, dab alle getesteten Personen den 
Test aufgrund derselben Eigenschaft oder 
Fahigkeit bearbeiten. Bei quantitativen 
Testmodellen bedeutet dies, dab dieselbe 
Personenvariable 0 bei alien Personen ge- 
messen wird. Mibt der Test dagegen bei 
einigen Personen z.B. die Einstellung zur 
Kernenergie, bei anderen Personen z.B. 
die Tendenz, sozial erwiinschte Antworten 
zu geben, so sind die Personen heterogen. 

Bei Modellen mit latenten Klassen ist die 
Annahme der Personenhomogenitat nicht 
in derselben Weise zu treffen, da sich die 
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verschiedenen Pcrsonenklassen darin un- 
terscheiden konnen, daB in jeder Klasse 
eine andere Variable fiir das Antwortver- 
halten ausschlaggebend ist. Bei klassifi- 
zierenden Testmodellen kann man daher 
nur innerhalb der latenten Klassen von 
Personenhomogenitat sprechen. 

Tatsachlich spielt die Priifung der Perso- 
nenhomogenitat auch nur bei quantitativen 
Testmodellen eine Rolle. Das Prinzip der- 
artiger Modellgeltungstests besteht darin, 
die A tem para meter in verschiedenen Un- 
tergruppen der Personenstichprobe zu 
schatzen und zu priifen, ob sie sich zwi- 
schen den Gruppen unterscheiden. Diesem 
Vorgehen liegt die Uberlegung zugmnde, 
daB die Itemschwierigkeiten in alien Per- 
sonengmppen, in denen diesel be Variable 
gemessen wird, identisch sind. 

Um diesen Test auf Personenhomogenitat 
durchfiihren zu konnen, gibt es zwei Mog- 
lichkeiten: 

- Entweder man hat eine Hypothese dar- 
iiber, welche Personengruppen zuein- 
ander heterogen sein konnten. Dann 
kann man fiir diese Gruppen getrennt 
die Itemparameter schatzen und mitein- 
ander vergleichen. 

- Oder man hat keine Hypothese iiber 

mbglicherweise heterogene Perso- 
nengruppen, dann wendet man das 
mixed Rasch-Modell an, welches nach 
latenten Personenpopulationen sucht, 
die zueinander heterogen sind. Ein Mo- 
delltest, der die Einklassenlosung mit 
der Zwei- oder Dreiklassenlosung des 
mixed Rasch-Modells vergleicht, ergibt 
dann die Priifung auf Personenho- 
mogenitat. 



Zunachst zum erstgenannten Fall. Das bei 
weitem am haufigsten verwendete Tei- 
lungskriterium fiir die Personenstichprobe 
ist der Summenscore der Personen. Das 
heiBt, man vergleicht die Itemparameter- 
Schatzungen in zwei oder mein - Score- 
gruppen miteinander. 



Datenbeispiel 

Teilt man die Personenstichprobe bei 
den KFT-Daten danach in zwei Gruppen 
ein, ob die Personen 0, 1 oder 2 Items 
gelost haben (Gruppe 1) oder 3, 4 oder 5 
Items (Gruppe 2), so ergeben sich die 
Folgenden Itemscores in den beiden 
Personengruppen: 





r = 0,1,2 


r = 3,4,5 


1 


59 


136 


2 


35 


140 


Item 3 


23 


120 


4 


8 


105 


5 


15 


79 


N 


152 


148 



Schatzt man die Itemparameter fiir diese 
beiden Personengruppen, so ergeben sich 
folgende Schatzwerte 





r=0,l,2 


r = 3,4,5 


1 


-1.27 


-0.52 


2 


-0.45 


-0.68 


Item 3 


0.04 


-0.01 


4 


1.17 


0.35 


5 


0.51 


0.86 



Um beurteilen zu konnen, wie gut die 
Schatzungen aus beiden Stichproben 
iibereinstimmen, zeichnet man diese 
Werte in ein Diagramm ein: 
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a h 



0,8 

0,6 

0,4 

0,2 

-O- 









n 

a 



- 1,5 



-1 






- 0,5 

# 



- 0,2 

- 0,4 

- 0,6 

- 0,8 



0,5 1 1,5 



Abbildung 143: Der graphische Modelltest 



Wenn die Itemparameter in beiden Stich- 
proben genau iibereinstimnien, liegen 
alle Punkte auf einer 45 Grad-Lime. Je 
weiter sie von dieser abweichen, desto 
musgepragter ist die Unterschiedlichkeit 
der beiden Personengruppen hinsichtlich 
der relativen Schwierigkeiten der Items. 
Man nennt diese graphische Priifung 
auch den graphischen Modelltest. 



Eine blobe Betrachtung der Unterschied- 
lichkeit von Itemparameterschatzungen 
stellt naturlich noch keine Modellgel- 
tungspriifung dar. Sie gibt lediglich Hin- 
weise darauf, welche Items in welchen 
Gruppen relativ leicht und relativ schwer 
sind. Diese Abweichungen sollten inter- 
pretiert werden, den sie konnen interes- 
sante inhalthche Ergebnisse liefern iiber 
die psychologische Struktur des Tests fur 
verschiedene Teilpopulationen. 

Einen statistischen Modellgeltungstest er- 
halt man, indent man den sogenannten 
bedingten Likelihoodquotiententest durch- 
fiihrt, der auch nach seineni Erfinder als 
'Andersen-Test' bezeichnet wird. Das Prin- 
zip von Likelihoodquotiententests wurde 
in Kapitel 5.1.2 dargestellt. Hier wird je- 
doch der Likelihoodquotient mit den be- 
dingten Likelihoods gebildet (vgl. Kap. 
4.2.1, Gleichung (12)): 



(1) cLR = _^0_ 



Das restriktivere Modell, dessen Annah- 
nten getestet werden sollen, ist das Rasch- 
Modell fur die gesamte Stichprobe, so dab 
int Zahler des Likelihoodquotienten die 
bedingte Likelihood aller Daten cL 0 steht. 
Das weniger restriktive Modell, dessen 
Likelihood in den Nenner des Quotienten 
gehort, ninimt an, dab das Rasch-Modell 
in jeder Scoregruppe gilt, das heibt, in den 
Scoregruppen konnen unterschiedliche 
Itemparameter gelten. Die bedingten Like- 
lihoods der Daten von Personen mit Score 
r werden hier mit cL r bezeichnet. 

Unter Geltung der Annahme der Perso- 
nenhomogenitat ist das Produkt der be- 
dingten Likelihoods der Scoregruppen 
gleich der bedingten Gesamtlikelihood des 
Zahlers. Je heterogener die Scoregmppen 
zueinander sind, desto grober wird die 
Walirscheinlichkeit des Nenners ini Ver- 
gleich zunt Zahler und umso eher wird die 
Priifgrobe 

- 2 log (cLR) 
signifikant. 

Die % 2 -Verteilung hat in dent Fall, dab 
man die Itemparameter fur jede der k-1 
Scoregruppen getrennt schatzt (fur r = 0 
und r = k sind keine Itemparameterschat- 
zungen moglich), 

df = (k-1) (k-2) 

Freiheitsgrade. Ublicherweise flihrt man 
den Test jedoch nicht so durch, dab man 
in jeder Scoregruppe die Itemparameter 
schatzt, sondern man fabt Scoregruppen 
zusammen. Int oben genannten Beispiel 
wurden lediglich die ‘Hochscorenden’ und 
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die ‘Niedrigscorenden’ unterschieden, wo- 
bei der T rennscore zwischen zwei und drei 
liegt. 



Datenbeispiel 

Der Logarithmus der bedingten Likeli- 
hood des Rasch-Modells betragt fur die 
KFT-Daten -320.6. Der Logarithmus des 
Produktes der beiden bedingten Likeli- 
hoods fur die niedrigscorenden und die 
hochscorenden Versuchspersonen betragt 
-319.6. Die Differenz ist -1, so dab die 
PrLifgrobe 

-2 log (CLR) = 2.0 

betragt. Die Anzahl der Freiheitsgrade ent- 
spricht der Anzahl der Modellparameter 
irn Nenner minus der im Zahler. Werden 
im Zahler 4 unabhangige Itemparameter 
geschatzt (wegen der Summennormie- 
rung), so sind es im Nenner 8, d.h. die y}- 
Verteilung hat 4 Freiheitsgrade. 

Der empirische % 2 -Wert von 2.0 ist bei 4 
Freiheitsgraden nicht signifi kant, so dab 
die Annahme unterschiedlicher Item- 
Schwierigkeiten fur Personen mit hohem 
und mit niedrigem Summenscore verwor- 
fen werden mub. 



Ein bedingter Likelihoodquotient wird 
sehr oft auch fur andere Teilungskriterien 
der Personenstichprobe berechnet, z.B. fur 
eine Teilung nach Geschlecht oder nach 
Alter. 

Fur den Score als Teilungskriterium kann 
der Likelihoodquotient auch mit Hilfe der 
marginalcn Likelihood berechnet werden 
(vgl. Kap. 3.1. 1.2.2 und 4.2.1). Der resul- 
tierende Likelihoodquotient ist in beiden 
Fallen identisch. 



cLR- und mLR-Tests bei Scoregruppen 



Die rechnerische Aquivalenz von beding- 
ten und marginalen Likelihoodquotienten- 
tests beim Vergleich von Scoregruppen 
wird anhand der Aufteilung der Stichprobe 
in hoch- und niedrigscorende Personen ge- 
zeigt. In diesem Fall lautet der bedingte 
Likelihoodquotient : 



(2) cLR = 



cL n 



eL n cL h 



und der entsprechende, mit Hilfe der mar- 
ginalen Likelihood gebildete Quotient: 



( 3 ) 



mL.R = 



mL 0 

mL n ■ mLj, ' 



Der Index n steht fur die Gruppe mit nie- 
drigem, h fur die Gruppe mit hohem 
Score. 



Aufgrund der in Kapitel 4.2.1 dargestell- 
ten Beziehung zwischen marginaler und 
bedingter Likelihood, dab namlich erstere 
gleich der letzteren, multipliziert mit dem 

Produkt alter Scorewahrscheinlichkeiten 

ist, 

k 

(4) mL = f[ p(r) nr cL, 

r=0 

labt sich der marginale Likelihoodquotient 
auch folgendermaben schreiben: 



n p(r) nr cL 0 

(5) mLR = — ^=0 

n p(r)" r cL n n p(0 nr cL h 

r=0 r=t+I 

cL 0 

cL n • cLj, 

t bezeichnet den Trennscore, d.h. der 
hochsten Score in der Gruppe der Niedrig- 
scorenden. Die Scorewahrscheinlichkeiten 
des Zahlers und Nenners lassen sich her- 
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auskurzen, so daB ein bedingter Likeli- 
hoodquotient iibrigbleibt. 



Die Aquivalenz von bedingtem und margi- 
nalem Likelihoodquotient gilt jedoch nur 
fiir den Score als Teilungskriterium. Bei 
alien anderen externen Teilungskriterien 
sind die Ergebnisse nicht identisch. 

Anstatt eine Vielzahl unterschiedlicher 
Teilungskriterien durchzuprobieren, um 
die Annahme der Personenhomogenitat 
abzusichern, besteht die einfachere Mog- 
lichkeit darin, einen Modellvergleich mit 
der Zweiklassenlosung des mixed Rasch- 
M odells durchzufiihren (s. Kap. 5.1). Dies 
ist insofem der elegantere Weg, als mit 
der Zweiklassenlosung des mixed Rasch- 
Modells jene Aufteilung der Personen- 
stichprobe identifiziert wird, fiir die die 
Itemparameter maximal unterschiedlich 
sind. 

Diese Aufteilung kann, muB aber nicht 

mit einem manifesten Teilungskriterium 
korrespondieren. Man kann mit dem 
mixed Rasch-Modell auch Personenhete- 
rogenitat identifizieren, die man mit einer 
manifesten Aufteilung der Personen- 
stichprobe nicht finden wiirde. 



Datenbeispiel 

Die Itemparameter der Zweiklassen- 
losung des mixed Rasch-Modells lauten 
fiir die KFT-Daten: 





Klasse 1 


Klasse 2 




to 

11 

On 


71, -.37 


1 


-1.54 


-0.14 


2 


-0.70 


-0.90 


Item 3 


-0.04 


0.13 


4 


1.54 


-0.42 


5 


0.73 


1.33 




Erwtr) = 1.4 


Erwtr) -4.1 



Der zugehorige graphische Modelltest 
ergibt folgendes Bild: 




Abbildung 144: Der graphische Modelltest fiir das 
2-Klassen mixed Rasch-Modell 

Die beiden ermittelten Klassen haben ein 
ahnliches Profil ihrer Itemparameter wie 
die Klasse der niedrig- und der hoch- 
scorenden Personen (vgl. die vorange- 
hende Beispielrechnung). In beiden Auf- 
teilungen der Stichprobe gibt es eine 
Gmppe, in der das erste Item das leich- 
teste und das vierte Item das schwierigste 
ist, und eine Gruppe, in der das zweite das 
leichteste und das fiinfte das schwierigste 
ist. 

Diese Korrespondenz zeigt sich auch in 
den erwarteten Scores fiir die beiden 
Klassen des mixed Rasch-Modells, denn 
der Erwartungswert des Scores ist in der 
zweiten. Klasse 1.4, wahrend er in der 
ersten Klasse 4.1 betragt. Offensichtlich 
haben bei den KFT-Items die 'Konner' ein 
anderes Profil der Itemschwierigkeiten als 
die 'Nichtkonner'. 

Dieser Unterschied ist in der Zwei- 
klassenlosung noch ausgepragter als beim 
Andersen-Test, was sich auch in der 
GrbBc des zugehorigen Likelihoodquo- 
tienten ausdriickt. 
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Dieser betragt n aml ich 
(6) - 2 log(MLR) 

- -2 (log(mL RM ) - log(mL 2K1 )) 
=-2(-854. 8+841. 0)=27.6, 

was bei df=17-9 = 8 Freiheitsgraden 
signifikant ist. 

Offensichtlich existiert in den KFT-Daten 
eine bedeutsame Personenheterogenitat, 

die sich bei der Aufteilung der Stichprobe 
in hoch- und niedrigscorende Personen 
nicht als signifikant erwiesen hat, jedoch 
bei der Aufteilung in zwei latente Klassen. 
Diese Diski'epanz verwundert etwas, da 
die Profile der Itemleichtigkeiten in beiden 
Aufteilungen ahnlich sind. Allerdings 
zeigt sich bei der Aufteilung in latente 
Klassen, dab die Klasse der ‘Konner’ rnit 
37 % kleiner ist als die Klasse der 
‘Nichtkonner und auch der erwartete Score 
rnit 4. 1 sehr hoch liegt. 

Aus diesem Grunde wurde der Andersen- 
Test mit einer anderen Scoreaufteilung 

berechnet, die den beiden latenten Klassen 
besser entspricht, namlich fiir den 
Trennscore t = 3 statt t = 2. Fiir diese 
Scoreaufteilung ergibt sich ein Likeli- 
hoodwert von -844.9, so dab der zuge- 
horige % 2 -Wert 

-2(- 85 4. 8 +844.9)= 19. 8 

betragt, was bei 4 Freiheitsgraden signifi- 
kant ist. 

Dieses Datenbeispiel zeigt, dab mit dem 
mixed-Rasch-Modell eine moglicherweise 
vorhandene Personenheterogenitat besser 
identifiziert wird, als mit einem manife- 
sten Teilungskriterium. 



5.3.2 Priifung der Itemhomo- 
genitat 

Sowohl quantitative wie auch klassifizie- 
rende Testmodelle nehmen an, dab alle 
Items diesel be Personeneigenschaft erfas- 
sen und in diesem Sinne homogen sind. 
Die Homogenitat der Items kann zum 
einen iiber Abweichungsmabe fiir einzelne 
Items gepriift werden (vgl. Kap. 6.2). Zum 
anderen kann man aber auch iiber die 
Bildung von moglicherweise heterogenen 
Itemgruppen einen Modelltest durchfiih- 
ren. Dies ist ganz analog zur Priifung der 
Personenhomogenitat, nur dab nicht die 
Personen sondern die Items gruppiert wer- 
den. 

Ausgangspunkt fiir diesen Modelltest ist 
eine Hypothese dariiber, welche Item- 
gmppen moglicherweise unterschiedliche 
Personlichkeitseigenschaften ansprechen. 
Tm einfachsten Fall sind dies zwei Test- 
ha I fen. Die Idee eines darauf beruhenden 
Modelltests ist die, dab man fiir beide 
Testhalften getrennt die Personenpara- 
meter bzw. die Klassenzugehorigkeiten 
ermittelt und priift, ob beide Mebwerte 
(Personenparameter bzw. Klassenzuge- 
horigkeiten) bis auf Zufallsschwankungen 
identisch sind. 

Fiir quantitative Testmodelle gibt es einen 
solchen Signifikanztest, der jedoch nicht 
die geschatzten Personenparameter zum 
Gegenstand hat, sondern deren erschop- 
fende Statistiken, die Summenscores fiir 
beide Testhalften. 
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Datenbeispiel 

Um die Hypothese zu testen, daB bei 
deni KFT leichte und schwere Items 

unterschiedliche Personeneigenschaften 
x-fassen, wurden 10 Items ausgewahlt, 
von denen 5 Items eher leicht und 5 
Items eher schwer sind. Es handelt sich 
um die Items 21 bis 25 und 31 bis 35 der 
Form A des KFT. Berechnet man fur die 
300 getesteten Personen (vgl. Kap. 3.1) 
die Summenscores fiir beide Testteile, so 
ergeben sich die folgenden Haufigkeiten: 

schwere Items 





r = 






s 


= 
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_A 


5 
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33 
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1 






leichte 
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2 
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5 
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13 


8 


8 


4 
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4 
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11 
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12 
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1 


4 


5 


14 


16 


16 



So haben z.B. 25 Personen ein leichtes 
Item, aber kein schweres Item gelost. 

Es zeigt sich eine recht gute Uberein- 
stimmung der Summenscores in beiden 
restteilen, da die Felder in der Nahe der 
Hauptdiagonalen am hochsten besetzt 
sind. DaB die groBten Haufigkeiten 
etwas unterhalb der Hauptdiagonalen 
liegen, kommt daher, daB die meisten 
Personen fiir die schweren Items nie- 
drigere Scores haben als fiir die leichten. 



Ein Signifkanztest, der priift, ob beide 
Testteile dieselbe latente Dimension erfas- 
sen, basiert auf den Haufigkeiten n rs , mit 
denen Personen im ersten Testteil den 
Score r und im zweiten Testteil den Score 
s erhalten haben (vgl. die Tabelle im obi- 



gen Datenbeispiel). Der Signifikanztest ist 
ein modifizierter Fikelihoodquotiententest, 

der auf den bedingten Likelihoods bei der 
Testteile beruht (vgl. Kap. 4.2.1). Er wild 
nach seinem Erfinder auch Martin-Lof- 
Test genannt. Die Priifstatistik lautet 



(7) -2 log 



a • cLr 



b ■ cLj • CL2 





r=0 s=0 



t n Y‘rs 



v N / 



wobei n r die Haufigkeit des Scores r in 
dem gesamten Test und n rs die Haufigkeit 
des Scores r in der ersten und s in der 
zweiten Testhalfte bezeichnet. Diese Priif- 
statistik ist / 2 -verteilt mit 



df = kj ■ k 2 -1 

Freiheitsgraden, wobei k[ und k 2 die Item- 
anzahlen in der ersten und zweiten Test- 
halfte darstellen. 



Datenbeispiel 

Fiir die beiden oben genannten Testteile 
des KFT lauten die zur Berechnung der 
Priifstatistik notwendigen Bestandteile: 

log(a • cL 0 ) = -1640.75 

log(cF 1 )= -350.21 

log(cF 2 ) = -311.39 

log(b) = -962.6. 

Es ergibt sich eine Priifstatistik von 

-2 ■ (-1640. 75 + 1624. 2) = 33. 1 1 

Die zugehorige x 2 -Vertei]ung hat 
5-5-1 = 24. 
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Freiheitsgrade, so daB der empirische Wert 
unter der 5 % Grenze der x 2 -Verteilung 
liegt (36.4). Demnach sind beide Item- 
Untergruppen zueinander homogen und 
erfassen diesel be Personlichkeitseigen- 
schaft. 



Mit diesem Verfaliren der Bildung von 
Itemgruppen laBt sich die Annahme der 
Itemhomogenitat nur hypothesengeleitet 

testen, das heiBt, man benotigt eine vorge- 
gebene Aufteilung der Items in zwei Un- 
tergruppen. 1st der dafiir berechnete X 2 - 
Wert nicht signifikant, so heiBt das noch 
nicht, daB alle Items zueinander homogen 
sind, sondern lediglich, daB sich die Item- 
heterogenitat nicht in dieser Aufspaltung 
niederschlagt. 

Ein heuristisches Verfahren fur die Suche 
nach maximal heterogenen Itemgruppen, 
analog zur Identifikation von Personen- 
gruppen mit dem mixed Rasch-Modell 
(S.O. 5.3.1) gibt es nicht. 

Bei klassifizierenden Modellen fehlt ein 
derartiger Signifikanztest, so daB man sich 
hier mit der Berechnung der Kreuztabellc 
der Klassenzugehorigkeiten begniigen 
muB. 



Datenbeispiel 

Berechnet man die Zweiklassenlosungen 
des Klassenmodells fur die 5 leichten 
und die 5 schweren Items getrennt, so er- 
geben sich die folgenden klassenspezi- 
fischen Ldsungswalirschcinliclikeiten. 



Klasse 1 
Klasse 2 



Klasse 1 
Klasse 2 

Fur beide Itemgruppen zeigt sich, daB es 
eine Klasse mit hohen und eine Klasse 
mit niedrigen Lbsungswahrscheinlich- 
keiten gibt. Erfassen beide Itemgruppen 
dieselbe Fahigkeitsvariable, so ist zu er- 
warten, daB in der Kreuztabelle der 
Klassenzugehorigkeiten im wesentlichen 
die beiden Felder der Hauptdiagonalen 
besetzt sind. Die berechnete Kreuztabelle 
sieht folgendermaBen aus: 

schwere Items 

Klasse 1 Klasse 2 

leichte Klasse 1 
Items Klasse 2 



Die Ubereinstimmung ist nicht perfekt. 
d. h. 15 bzw. 57 Personen werden bei der 
einen Itemgruppe der Klasse der Konner. 
bei der anderen Itemgruppe der Klasse 
der Nichtkonner zugeordnet. Inwieweil 
dies eine Zufallsschwankung darstcl It 
oder tatsachlich darauf hinweist, daB bei- 
de Itemgruppen heterogen sind, muB 
unter Beriicksichtigung der individueller 
Zuordnungswahrscheinlichkeiten ent- 
schieden werden. Einen einfachen Signi- 
fikanztest gibt es hierfiir nicht. 
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Die Priifung der Itemhomogenitat bei 
klassifizierenden Testmodellen ist noch 
relativ unbefriedigend und gehort nicht zur 
Standardpraxis bei der Testauswertung. Es 
sei jedoch auf die Moglichkeiten der Beur- 
teilung einzelner Items hingewiesen, die in 
Kapitel 6.2 dargestellt sind. 



Literatur 

Einen Uberblick iiber Modelltests, die 
jeweils bestimmte Annahmen von Rasch- 
Modellen testen, geben Glas & Verhelst 
(1995), Gustafsson (1980b) und v.d. 
Wollenberg (1988). Der Andersen-Test 
geht auf Andersen (1973b) zuriick, Rost & 
v.Davier (1995) gehen darauf ein, dab das 
mixed Rasch-Modell einen strengeren Test 
auf Personenhomogenitat darstellt. Dab 
der Andersen-Test nicht notwendigerweise 
auf Itemheterogenitat reagiert, zeigen 
Stelzl (1979) und Formann & Rop (1987). 
Der Martin-Lof Test (Martin-Lof 1973) 
wird von Gustafsson (1980b) beschrieben. 
Weitere Modelltests fur Rasch-Modelle 
werden von Formann (1981), Glas 
(1988b), Molenaar (1983) und v.d. 
Wollenberg (1982a, b) vorgeschlagen. 



nahme der Personenhomogenitat auf- 
recht erhalten werden? 

2. Priifen Sie mit WINMIRA, ob die 5 
Neurotizismus-Items (s. Kap. 3.3, Ein- 
leitung) und die 5 Extraversions-Items 
(s. Kap. 3.3.5) des NEOFFI dieselbe 
zweikategorielle Personenvariable 
(Modell der latent-class Analyse) mes- 
sen. 



Ubungsaufgaben 

1. Sie mochten bei einem Test mit 15 
dichotomen Items die Personenhomo- 
genitat untersuchen. Um den Andersen- 
Test durchfiihren zu konnen, teilen Sie 
die Personenstichprobe in 3 Scoregrup- 
pen auf: r = 0 bis r = 5, r = 6 bis r = 10 
und r = 11 bis r = 15. Die marginale 
Loglikelihood fur die Gesamtstich- 
probe betragt log(mL 0 ) = -1815, die 
fur die drei Scoregruppen: 
loglmL!) = -590, log(mL 2 ) = -600 
und log(mL 3 ) = -610. Kann nach dem 
Ergebnis des Andersen-Tests die An- 
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6. Testoptimierung 

Hat man einen Test entwickelt, ein Test- 
modell auf die Daten angewendet, dessen 
Parameter geschatzt und Modellgeltungs- 
kontrollen durchgefiihrt, so ist damit noch 
nicht unbedingt sichergestellt, daB der 
Test auch ‘gut’ ist. Zumindest wird man 
ihn in aller Regel noch verbessern konnen 
oder auch miissen, wenn zum Beispiel die 
Modellgeltungskontrollen keine hinrei- 
chende Modellgiiltigkeit anzeigen oder die 
Modellparameter schwierig zu interpre- 
tieren sind. Um die Frage, wie man einen 
Test optimiert, geht es in diesem Kapitel. 

Will man etwas optimieren, so benotigt 
man Giitekriterien, also in diesem Fall 
Testgiitekriterien. Diese Giitekriterien 
wurden bereits in Kapitel 2.1 behandelt. 
Dort werden vier Giitekriterien unterschie- 
den, namlich neben den klassischen drei 
der Objektivitat, Reliabilitat und Validitat 
noch das Kriterium der Noimierung von 
Testergebnissen. Die Gliederung des vor- 
liegenden Kapitels orientiert sich an die- 
sen vier Giitekriterien, jedoch gibt es ein 
paar Abweichungen. 

Die Optimierung eines Tests durch Ver- 
besserung seiner Objektivitat wird hier 
nicht behandelt, sondern wurde bereits in 
Kapitel 2.5 aufgegriffen. Der Grand liegt 
darin, daB man eine hinreichende Test- 
objektivitat im allgemeinen vor der An- 
wendung eines Testmodells sicherstellen 
kann und sollte. Hierfiir miissen zwar auch 
einige Berechnungen angestellt werden, 
jedoch sind diese im allgemeinen nicht auf 
ein bestimmtes Testmodell bezogen. 
Anders herum kann jedoch die Tatsache, 
daB ein bestimmtes Testmodell nicht auf 
die Daten paBt, sehr wohl darauf 
hinweisen, daB mit der Testobjektivitat 



etwas nicht in Ordnung ist. Allerdings 
sind solche Riickschliisse nicht sehr 
spezifisch, d.h. man kann an den Modell- 
parametern nicht unbedingt ablesen, was 
mit der Testobjektivitat nicht stimmt. 

Anders verhalt es sich mit der Reliabilitat 
oder allgemeiner mit der Mefigenauigkeit 
des Tests. Diese laBt sich uberhaupt nur 
unter der Bedingung der Gultigkeit eines 
bestimmten Testmodells berechnen. Das 
Ziel der Testoptimierung besteht dann 
darin, den MeBfehler zu verringem oder 
die Reliabilitat zu erhohen. Dieser Aspekt 
der Testoptimierung wird in Kapitel 6.1 
behandelt. 

Kapitel 6.2 und 6.3 behandeln zwei kom- 
plementare Mbglichkeiten, die interne Va- 
liditat eines Tests zu verbessern. Wenn ein 
Testmodell nicht gut auf die Daten paBt, 
so kann das daran liegen, daB einzelne 
Items nicht dasselbe messen wie die Mehr- 
zahl der anderen Items. Durch Selektion, 
d.h. Eliminierung einzelner Items kann 
man einen Test so verbessern, daB er das 
besser miBt, was er messen soil. Man 
verbessert damit die interne Validitat des 
Tests. 

Ganz symmetrisch zur Selektion einzelner 
Items kann man auch durch Selektion ein- 
zelner Personen oder Personengruppen die 
interne Validitat eines Tests verbessern. 
Dies ist dann der Fall, wenn ein Test bei 
einzelnen Personen nicht das miBt, was er 
messen soil - sei es, daB diese Personen 
die zu messende Eigenschaft gar nicht ‘in 
sich' haben oder sei es, daB sie den Test 
einfach schlampig bearbeitet haben. Dieser 
Weg der Testoptimierung wird in Kapitel 
6.3 behandelt. 

Kapitel 6.4 befaBt sich mit der Verbesse- 
rung der externen Validitat. Obwohl dies 
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das hochste Ziel der Testentwicklung dar- 
stellt, uberschreitet man mit diesem Punkt 
bereits die Grenzen der Testtheorie. Es 
werden hierfiir namlich neben den Testda- 
ten noch andere Daten benotigt, die Vali- 
ditatskriterien. Auch benotigt man neben 
den Testmodellen weitere statistische Mo- 
delle, mit denen man die Testergebnisse 
mit den Validitatskriterien in Beziehung 
setzen kann. Hier konimt eine Vielzahl 
von statistischen Methoden in Betracht 
wie z.B. Regressionsanalyse, Diskrimi- 
nanzanalyse oder Kreuztabellenanalyse, 
welche nicht in diesem Buch behandelt 
werden konnen. Kapitel 6.4. beschrankt 
sich daher auf einige Aspekte der Er- 
hohung der extemen Validitat, die direkt 
mit der MeBfehlertheorie und der Anwen- 
dung bestinmiter Testmodelle zu tun ha- 
ben. 

Kapitel 6.5 behandelt das letzte Gutekri- 
terium, namlich die Normierung oder 
Standardisierung von Testergebnissen. Tm 
engeren Sinne wird dureh eine Nomiie- 
mng der Testergebnisse der Test nicht 
wirklich ‘besser’ , seine Ergebnisse werden 
lediglich brauchbarer und besser interpre- 
tierbar. 

Der gesamte Komplex der Anwendung 
von Tests, d.h. wann man welche Tests 
wie einsetzt, wird hier nicht behandelt. 
Diese Fragen gehoren in den Kontext einer 
allgemeinen psychologischen Diagnostik 
und konnen nur in einem solchen Rahmen 
sinnvoll diskutiert werden. 

6.1 Optimierung der MeBge- 
nauigkeit eines Tests 

Ganz salopp ausgedruckt, miBt ein Test 
umso genauer je longer er ist, d.h. je melir 
Items er umfaBt. Diese Regel druckt einen 



wichtigen Sachverhalt aus, um den es - 
unter anderem - in diesem Kapitel geht, 
der jedoch nur unter mehreren Ein- 
schrankungen gilt. 

Zum einen ist dies ein rein statistisches 
Argument, das samtliche psychologischen 
Folgen einer Testverlangerung auBer acht 
laBt. Nattirlich fiihrt eine Testverlangerung 
durch Erm Lid u ngse rsc he in u nge n , Konzen- 
trationsmangel, absinkender Testmotivati- 
on und Effekte des ‘Genervtseins’ dazu, 
daB die Testergebnisse unbrauchbarer wer- 
den und auch mit groBeren MeBfehlem 
versehen sind. Insofem gilt die eingangs 
gemachte Aussage nur unter der 'Kon- 
stanzannahme’, daB die hinzugefugten 
Items genauso sorgfaltig bearbeitet werden 
wie die urspriinglichen. 

Zweitens kommt es darauf an, um welche 
Items ein Test verlangert wird. Ein Test 
kann selbstverstandlich auch schlechter 
werden, wenn man unbrauchbare Items 
hinzufiigt, und er kann sogar besser wer- 
den, wenn man ihn verkiirzt, indem man 
schlechte Items eliminiert (s. Kap. 6.2). 
Insofem gilt die oben gemachte Aussage 
nur unter der zweiten Konstanzannahme, 
daB die hinzugefugten Items von der glei- 
chen Qualitat sind wie die urspriinglichen 
Items. 

Der Effekt einer Erhohung der MeBge- 
nauigkeit durch Testverlangerung ist so- 
wohl im Rahmen der allgemeinen MeB- 
fehlertheorie nachweisbar als auch im 
Rahmen der Maximum-Likelihood Theo- 
rie, die zur Schatzung der Modellpara- 
meter herangezogen wird (s. Kap. 4). Im 
Rahmen der Maximum-Likelihood Theorie 
kann man die MeBgenauigkeit einzelner 
PersonenmeBwerte bestinmien, aber auch 
die Reliabilitat eines Tests berechnen 
(Kap. 6.1.1). Im Rahmen der allgemeinen 
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Mefifehlertheorie kann global berechnet 
werden, wie sich die Reliabilitat eines 
Tests als Funktion der Testlange verandert 
(Kap. 6.1.2). 

In Kapitel 6.1.3 ist dargestellt, wie man 
Vertrauensintervalle aufgrund der Reliabi- 
litat des Tests oder der Schatzfehlervarianz 
eines MeBwertes berechnet. 

Das Konzept des MeBfehlers bezieht sich 
zunachst nur auf quantitative Personenva- 
riablen. Bei Testmodellen rnit qualitativer 
Personenvariable entspricht das Konzept 
der Zuordnungssicherheit bzw. -unsicher- 
heit am ehesten dem, was man sonst MeB- 
fehler nennt. Hierauf wird in Kapitel 6.1.4 
eingegangen. 

6.1.1 MeBgenauigkeit der Per- 
sonenmeBwerte 

Jeder Test braucht eine MeBgenauigkeit, 
die seinen Einsatzbereichen entspricht. Fur 
manche Zwecke kann man sich rnit einer 
geringeren Genauigkeit zufrieden geben, 
oft mochte man sie aber erhohen. Im fol- 
genden ist dargestellt, wie man die MeB- 
genauigkeit berechnet. Anhand dessen 
wird auch klar, wie man sie verandert. 

Da der MeBwert einer Person bei quan- 
titativen Testmodellen einen Modellpara- 
meter dais tel It, namlich 9 V , ist die Frage 
nach der MeBgenauigkeit eines Tests rnit 
der Frage gleichzusetzen, wie gut sich die 
Personenparameter eines Testmodells an- 
hand der Daten schatzen lassen. 

In Kapitel 4.4 wurde bereits die Berech- 
nung der Genauigkeit von Parameterschat- 
zungen dargestellt. Diese Berechnung ist 
bei alien Testmodellen moglich, deren 



Parameter nach der Maximum-Fikelihood 
Methode geschatzt werden (vgl. Kap. 4.2). 
Das dort abgeleitete zentrale Ergebnis zur 
Genauigkeit von Personenparameterschat- 
zungen wird im folgenden aufgegriffen 
und mit den Begriffen der Mefifehler- 
theorie dargestellt. 

Als Mefifehler wird allgemein die Ab- 
weichung des ‘wahren’ MeBwertes einer 
Person 9 V von ihrem ‘beobachteten’ oder 
anhand von Beobachtungen geschatzten 
MeBwert 9 v bezeichnet (vgl. Kap. 2.1.2): 

(1) 9 V = 0 V - E 0v . 



Ist Eo eine Fehlervariable? 

V 

Von Fchlervariablen muB gewahrleistet 
sein, daB ihr Erwartungswert 9 ist. Dies ist 
dann gegeben, wenn 9 ein erwartungs- 
treuer Schatzer fiir 9 ist, da die Eigen- 
schaft der Konsistenz besagt, daB der 
Erwartungswert des Schatzers gleich den 
wahren Parameter ist (s. Kap. 4.2.1): 

Erw(§ v ) = 9 v . 

Daraus folgt aber auch, daB 

Erw(E 0v ) = O 

ist, da der Additionssatz fur Erwartungs- 
werte gelten muB, 

Erw(9 v ) = Erw(9 v ) — Erw^ ) 

und der Erwartungswert von 9 V laut Vor- 
aussetzung 9 V selbst ist. 

Der MeBwert einer Person, 9 V , ist umso 
genauer, je weniger der Schatzwert im 
Durchschnitt vom wahren Parameter 
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abweicht (s. Gleichung (1)), d.h. je kleiner lichkeit (das ist die Variant der Ant- 

die Variant der Fehlervariable Eq ist. wortvariable, s. Kap. 2.2.4) stets kleiner. 



In Kapitel 4.4 wurde abgeleitet, dab die 
Varianz dieser Fehlervariablen fiir das 
dichotome Rasch-Modell folgendermaben 
berechnet werden kann: 

(2) Var(E 0v ) = - T . 

X PviO ~ Pvi ) 

i=l 

p vi bezeichnet die Losungswahrschein- 
lichkeit der Person v beziiglich Item i, wie 
sie durch die Modellgleichung definiert 
ist. 

An dieser Formel fiir die Fehlervarianz 
eines Personenmebwertes lassen sich 
einige interessante Dinge ablesen. Zum 
einen sieht man, dab die Fehlervarianz 
eines Mebwertes umgekehrt proportional 
zur Summe von Anteilen alter Items ist. 
Das bedeutet, jedes Item tragt einen be- 
stinmiten Anteil zur Mebgenauigkeit eines 
Personenmebwertes bei. Da alle diese An- 
teile positiv sind (sie stellen namlich das 
Produkt einer Wahrsehcinliehkeit rnit ihr er 
Gcge n wa h rse lie in I i e h k e i t dar), rnibt ein 
Test umso genauer, je langer er ist, d.h. je 
mehr Items er umfabt. Darnit ist die 
eingangs getroffene Feststellung bereits 
bewiesen: Je langer ein Test ist, desto 
genauer rnibt er. 

Die Anteile jedes eintelnen Items an der 
Mebgenauigkeit konnen jedoch unter- 
schiedlich grofi sein. Ein Summand in 
Formel (2) wird dann am grobten, wenn 
p vi = 0.5 ist (namlich 0.5.0. 5 = 0.25). 
Ist die Lbs u ngswahrsehcin lichkeit grober 
oder kleiner, so wird das Produkt von 
Wahrsehcinliehkeit und Gegenwahrschein- 



Das bedeutet, ein Item tragt am meisten 
zur Schatzung eines Personenmebwertes 
bei, wenn es bei dieser Person eine Fo- 
sungswahrscheinlichkeit von 50% hat. 
Dieser Wert wird genau dann erreicht, 
wenn das Item ‘so schwierig ist, wie die 
Person fahig ist’: Personenparameter und 
Itemparameter miissen ubereinstimmen, so 
dab der Exponent der logistischen Funk- 
tion 0 wird. 

Ein Test wird also durch Hinzufiigung 
weiterer Items besonders in seiner Mebge- 
nauigkeit erhoht, wenn die hinzugefiigten 
Items zu der zu messenden Fahigkeitsaus- 
pragung passen. Mochte man Eigen- 
schaftsauspragungen im unteren Bereich 
gut messen, so mub man leichte Items hin- 
zufiigen, fiir den oberen Bereich schwere 
Items. 



Dasselbe gilt fiir mehrkategorielle, ordina- 
le Itemantworten. Die Fehlervarianzen der 
Personenparameter sehen fiir ordinale 
Rasch-Modelle namlich ganz ahnlich aus: 



(3) Var(E 0v 



1 



k 


m 


( m A 


2' 


I 


^ x Pvix “ 


X x Pvix 




i=l 


x=0 


vx-0 





wobei p vix die A nt wort wall rse lie i n lie h kei t 
von Person v bei Item i in Kategorie x 
bezeichnet. Auch hier handelt es sich bei 
dem Ausdruck im Nenner um die Summe 
der Varianzen der Antwortvariablen. 



Varianz einer Zufallsvariablen mit be- 
kannter Wahrscheinlichkeitsverteilung 

Die Antwortvariable X vi nimmt Werte 
x vl e { 0, 1, 2 ... m} mit den Wahrschein- 

liclikeiten p vix an. Die Varianz einer Vari- 
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able ist durch den Erwartungswert der 
quadrierten Mittelwertabweichungen defi- 
niert: 

Var(x vi ) = Erw(x vi -Erw(x vi )) 2 , 

was sich umformen laBt zu 
Var(x vi ) 

= Erw^Xyj -2 X vi Erw(x vi ) + (Erw(x vi )) J 

= Erw(xjj ) - 2 Erw(x vl ) Erw(x vi ) + (Erw(x vi )f 

= Erw(x 2 vi )-(Erw(x vi )) 2 

Setzt man hier die Definition des Erwar- 
tungswertes ein 

m 

Erw(X V i)= X x Pvix - 

x=0 

so ergibt sich: 

m f m 

Var(x vi ) = X x2 Pvix - X x Pvix • 
x=0 Vx=0 j 



Die Varianz der Fehlervariable ist also 
gleich dem Kehrwert der Summe aller 
Varianzen der Antwortvariablen. Das 
bedeutet, je grofier die Varicinz der 
Itemantwort, desto starker tragt ein Item 
zur MeBgenauigkeit bei. 

Der dritte Punkt, der sich an den Formeln 
(2) und (3) ablesen laBt, ist der, daB die 
Fehlervarianz nicht fur alle Personen 
gleich grofi ist, sondern sich fur ver- 
schiedene MeBwerte unterscheidet. Diese 
Abhangigkeit der Fehlervarianz von der 
Hohe des PersonenmeBwertes ist in 
Abbildung 145 anhand des NEOFFI- 
Datenbeispiels aus Kapitel 3.3 dargestellt. 



Abbildung 145 zeigt, daB ein Test irn mitt- 
leren Bereich am genauesten miBt, d. h. 
die Standardabweichung der Fehlervaria- 
ble zu den beiden Extremen hin groBer 
wird. 



0 




Abbildung 145: Die Abhangigkeit der Fehlervari- 
anz (Lange der senkrechten Striche) vom Perso- 
nenmeBwert. 

Die Frage nach der MeBgenauigkeit eines 
Tests laBt sich also im Rahmen der Ma- 
ximum-Likelihood Theorie nicht mit einer 
einzigen Zahl beantworten, sondern nur 
bezogen auf einen bestimmten Wertebe- 
reich der zu messenden Personenvariable. 

Mit dem Konzept der Reliabilitdt wurde 
dagegen ein globules Giitekriterium fiir 
Tests eingefiihrt, das die MeBgenauigkeit 
eines Tests fiir eine ganze Personen- 
population ausdruckt (vgl. Kap. 2.1.2). 
Die Idee dieses Konzeptes besteht darin, 
die Fehlervarianz der MeBwerte mit der 
Varianz der Mefiwerte selbst in Beziehung 
zu setzen. Dies ist eine sehr sinnvolle 
Konzeption, denn derselbe Betrag an Feh- 
lervarianz kann relativ ‘grofi’, und somit 
schwerwiegend sein, wenn die MeBwerte 
selbst nur wenig variieren. Oder er kann 
relativ ‘klein’, sprich unbedeutend sein, 
wenn die Varianz der MeBwerte sehr groB 
ist. 
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Die Reliabilitat ist folgerichtig als 
Varianzverhaltnis definiert, namlich als 
Verhaltnis der Varianz der ‘wahren’, 
meBfehlerfreien MeBwerte zur Varianz der 
geschatzten MeBwerte: 

(4) Re,(5, = ^5) 

Var(0) 

Da sich die Varianz der wahren Werte rnit 
der Fehlervarianz zur Varianz der ge- 
schatzten MeBwerte addiert, laBt sich 
diese Reliabilitatsdefinition auch um- 
schreiben zu: 

(5) Rel(9) = l- Va - (Ee) - . 

Var(0) 

An dieser Formel sieht man, daB die 
Reliabilitat 0 wird, wenn die MeBwerte 
selbst gar nicht starker variieren, als ihr 
Fehleranteil, ddi. jegliche Variation der 
MeBwerte durch ihren MeBfehler bedingt 
ist. 

In dieser Definition ist mit ‘Varianz der 
Fchlervariable’, VarlEg), nicht die Schatz- 

fehlervarianz eines einzelnen MeBwertes 
9 V gemeint, sondem die Varianz des Feh- 
leranteils alter PersonenmeBwerte (daher 
fehlt hier der Index v). Diese Varianz des 
Fehleranteils iiber alle Personen laBt sich 
iiber den Mittelwert aller individuellen 
Schatzfehlervarianzen berechnen: 

Z Var(EeJ 

(6) Var(E„) = 4Sl___ , 

so daB sich als Formel fur die Reliabilitat 
folgender Ausdmck ergibt: 



N ( \ 
I Var(E e J 

(7) Re 1(0) = 1 — 

N ■ Var(0) 



Datenbeispiel 

Im Datenbeispiel der 5 dichotomen KFT- 
Items betragt der Mittelwert der Fehler- 
varianzen 

Var(E e )= 1.67 

und die Stichprobenvarianz der geschatz- 
ten Personenparameter 

Var(d) = 3.13. 

Somit betragt die Reliabilitat Rel = 0.46. 



Das Besondere an dieser Art der Reliabi- 
litatsberechnung liegt darin, daB die Feh- 
lervarianz unabhdngig von der Varianz der 
beobachteten MeBwerte bestimmt wird. 
Die Fehlervarianz jedes PersonenmeBwer- 
tes hangt nicht davon ab, welche anderen 
Personen noch in der Stichprobe sind, son- 
dem allein von der Anzahl und Schwie- 
rigkeit der Items in einem Test (vgl. For- 
mel (2) und (3)). 

Das unterscheidet diese Art der Reliabili- 
tatsbestimmung von der Berechnung der 
Reliabilitat im Rahmen der MeBfehler- 
theorie. Da die Mefifehlertheorie von ‘fer- 
tigen’ MeBwerten ausgeht, stehen keine 
Schatzfehlervarianzen von MeBwerten zur 
Verfugung. Daher muB dort die Reliabili- 
tat iiber den Umweg der Berechnung von 
Korrelationen zwischen Mefiwerten be- 
stimmt werden. 



Reliabilitatsberechnung im Rahmen der 
Mefifehlertheorie 

Aus der Annahme, daB zwei Tests diesel- 
be latente Variable messen und gleiche 
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MeBgenauigkeit haben, ist ableitbar, daB 
die Reliabilitat beider Tests der Korrela- 
tion ihrer MeBwerte entspricht: 

Rel(X) = Rel(X’) = Korr(X,X’). 

Je nachdem, welche MeBwerte man mit- 
einander korreliert, um die Reliabilitat zu 
bestimmen, unterscheidet man verschie- 
dene Arten von Reliabilitat. 

Korreliert man die Ergebnisse zweier par- 
allel konstmierter Testformen, die man 
derselben Stichprobe vorgegeben hat, mit- 
einander, so wird das als Paralleltest- 
Methode bezeichnet. Gibt man denselben 
Test in zeitlichem Abstand denselben Per- 
sonen noch einmal vor und korreliert die 
Ergebnisse, so erhalt man die Retest- 
Reliabilitdt. Teilt man die Items eines 
Tests in zwei Gruppen und korreliert die 
Ergebnisse beider Testhalften, so nennt 
man das die Halbtest-Methode. 

Die Korrelation zweier Testhalften ent- 
spricht allerdings nicht der Reliabilitat des 
Gesamttests sondern nur einer Testhalfte, 
ist also geringer. Sie muB mittels der irn 
nachsten Kapitel (6.1.2) behandelten For- 
meln mit dem Verlangerungsfaktor 2 
aufgewertet werden. 

SchlieBlich kann man einen Test nicht nur 
in zwei Halften teilen, sondern jede Item- 
antwort als MeBwert betrachten (s. Kap. 
3. 1.1. 2.1). Schatzt man die Reliabilitat auf 
diesem Weg, so erhalt man die interne 
Konsistenz eines Tests. 



Als MaB der intemen Konsistenz stellt 
Cronbachs Alpha eine Schatzung der Re- 
liabilitat des Summenscores r v als MeB- 
wert im Rahmen der MeBfehlertheorie dar. 
Dieses MaB betragt fur das KFT-Daten- 
beispiel Alpha = 0.742 und ist deutlich 



holier als die Reliabilitat der Personen- 
parameter im Rasch-Modell (0.46). Dieser 
Unterschied ist damit zu erklaren, daB im 
KFT-Datensatz relativ viele Personen kein 
Item bzw. alle Items gelost haben. Fur 
diese Personen erhalt man recht groBe 
Fchlervarianzen der Personen-Parameter. 
Die unterschiedliche MeBgenauigkeit wird 
in der MeBfehlertheorie nicht in die 
Berechnung einbezogen. 

Die Berechnungen nach dem Rasch- 
Modell und der MeBfehlertheorie klaffen 
nicht immer so weit auseinander. Gibt es 
weniger Extremscores mit einem groBen 
MeBfehler, wie bei den Neurotizismus- 
Items des NEOFFI, so sind die Rebabili- 
tatsberechnungen ahnlich. Im Rasch- 
Modell erhalt man die Reliabilitat von 
0.742 und Cronbachs alpha als MaB der 
internen Konsistenz betragt 0.764. 

Fur die Extraversions-Items, die 
wesentlich heterogener sind, erhalt man 
im Rasch-Modell die Reliabilitat 0.46 und 
nach der MeBfehlertheorie 0.47. 

6.1.2 Reliabilitatssteigerung 
durch Testverlangerung 

Im vorangehenden Kapitel stellte sich 
heraus, daB die Erhohung der MeBge- 
nauigkeit eines Tests durch Hinzufugen 
weiterer Items davon abhangt, welche 
Items man hinzufugt, d.h. im wesentlichen 
von deren Schwierigkeit. Im Rahmen der 
allgemeinen MeBfehlertheorie kann man 
unter der vereinfachenden Annahme, daB 
alle Items gleich gut messen, Formeln ab- 
leiten, die die Veranderung der Reliabilitat 
in Abhangigkeit von der Testlange (Item- 
anzahl) angeben. Das ist im folgenden dar- 
gestellt. 
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Die Grundlagen der allgemeinen MeBfeh- 
lertheorie wurden bereits in Kapitel 2.1.2 
behandelt. In Kapitel 3.5. 1.1 wurde die 
MeBfehlertheorie verwendet, um Aussa- 
gen iiber die Reliability von Differenz- 
werten zu machen. Dort zeigte sich, daB 
die Reliability der Different von zwei 
MeBwerten in der Regel kleiner ist als die 
Reliabilitaten der beiden beteiligten MeB- 
werte. 

Ein analoges Problem stellt die Frage nach 
der Reliability der Summe zweier MeB- 
werte dar. Die Reliability der Summe 
zweier MeBwerte ist dabei identisch zu der 
Reliability des Mittelwertes der beiden 
MeBwerte, da das eine durch einen kon- 
stanten Faktor (2 bzw. y) in das andere 
uberftihrt werden kann. 



Die Reliability der Summe zweier Mefi- 
werte X, und X 2 , die nicht nur dieselbe 
Personeneigenschaft messen sondern auch 
dieselbe Reliability haben, entspricht fol- 
gendem Ausdmck: 



( 1 ) 



Rel(X] +X 2 ) 



2 ■ Re l(X] ) 

(l + Re 1 (X, )) ' 



Ableitung 



Die Reliability der Summe zweier Varia- 
blen lautet nach Definition 



Rel(X] + X 2 ) 



Var(T 1 +T 2 ) 
Var(X 1 +X 2 ) ’ 



Da die Varianz der Summe zweier Va- 
riablen gleich der Summe der Varianzen 
plus zweimal die Kovarianz ist (s. Kap. 
2.1.2), ergibt sich: 

, , Var(T,)+ Var(T 2 ) + 2Cov(T 1 ,T 2 ) 

Rel(X, +X 2 j- Var ( Xl ) + Var ( X2 ) + 2Cov ( Xl>X2 )' 



Da die wahren Werte beider Messungen, 
T[ und T 2 , identisch sind, steht im Zahler 
die Kovarianz einer Variablen mit sich 
selbst. Dies entspricht der Varianz der 
betreffenden Variable, wie sich anhand der 
Kovaiianzfonnel (Kap. 2.1.1) erkennen 
laBt. Faut Voraussetzung sind die Varian- 
zen von T, und T 2 , bzw. von X, und X 2 
jeweils identisch, was zu folgender Ver- 
kiirzung fiihrt: 

, v 4 Var(T] ) 

Rel Xt + X 2 ) - 2 Var(X, ) + 2 Cov(X 1 , X 2 ) 

Aus den Axiomen der allgemeinen MeB- 
fehlertheorie laBt sich ableiten, daB die 
Kovarianz zweier MeBwerte gleich der 
Kovarianz ihrer wahren Werte ist, da die 
MeBfehleranteile nichts zur Kovarianz bei- 
tragen. Das bedeutet, daB im Nenner die 
Kovarianz von X, und X 2 durch die 
Kovarianz der beiden wahren Werte und 
somit durch die Varianz der wahren Werte 
ersetzt werden kann: 

, v 4 Var(T[ ) 

Rel(X, + X 2 ) - 2Var ( Xi ) + 2Va r( Ti ) 

2Var(T,) 

Var(X] ) + Var(T] ) 



Nach Division dieses Bruches durch die 
Varianz der MeBwerte X, ergibt sich die 
oben genannte Formel fur die Reliability 
der Summe zweier MeBwerte: 



Rel(Xj + X 2 ) 



2 Rel (Xj) 

1 + Rel(Xi) 



An dieser Fomiel laBt sich ablesen, daB 
die Reliability der Summe oder des 
Mittelwertes zweier MeBwerte, die 
dasselbe messen, stets grofier ist ys die 
Reliability jedes einzelnen MeBwertes. 
Damit ist einmal mehr die eingangs 
gemachte Aussage bewiesen. Abbildung 
146 zeigt den durch Gleichung (1) 
definierten Zusammenhang. 
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Reliabilitiit des vcrdoppcltcn Tests 




urspriinglichc Reliability 

Abbildung 146: Reliabilitatssteigerung durch 

Testverdopplung 

An der Graphik laBt sich z.B. ablesen, daB 
ein Test, der eine Reliability von 0.6 hat, 
nach Verdoppelung seiner Itemanzahl eine 
Reliabilitat von 0.75 aufweist. 

Die Beziehung zwischen der Reliabilitat 
eines Tests und einer verlangerten Test- 
version laBt sich auch auf den Fall ver- 
allgemeinern, daB der Test urn den Faktor 
k verlangert wird. Die entsprechende For- 
mel lautet: 

(2)Rel(X ' k) = j + (k _ j)r el ( X J ' 

Der Verlangerungsfaktor k liegt zwischen 
1 und °°. Wird ein Test von 10 Items auf 
12 Items verlangert, so ist k = 1.2 und die 
Reliabilitat wachst z.B. von 0.6 auf 
0.72/1.12 = 0.64. Dieser Zusammenhang 
ist in Abbildung 147 fur verschiedene 
Ausgangsreliabilitaten wiedergegeben. 



Reliabilitat des vcrliingerten Tests 




Tcstvcrliingcrungsfakior 

Abbildung 147: Reliabilitatssteigerung durch 

Testverlangerung 



Man kann die Beziehung zwischen der 
Reliabilitat einer Messung und der Relia- 
bility des um den Faktor k verlangerten 
Tests auch in umgekehrter Richtung be- 
trachten: Wie Jang mufi ein Test sein , da- 
mit er eine bestimmte Reliabilitat auf- 
weist? 

Hat ein Test, der aus 10 Items besteht, 
z.B. eine Reliabilitat von .70, so muBte er 
aus 40 Items bestehen, um eine Reliabili- 
ty von .90 zu erreichen. Ob das den be- 
fragten Personen zumutbar ist und ob 
tiberhaupt so viele unterschiedliche Items 
formuliert werden konnen, steht auf einem 
anderen Blatt. 

Diese Ableitungen beruhen auf der verein- 
fachenden Annahme, daB alle Testteile, 
also der urspriingliche Test und der Ver- 
langerungsteil, gleich gut messen. Im vor- 
angehenden Kapitel hatte sich dagegen 
herausgestellt, daB die Erhohung der MeB- 
genauigkeit davon abhangt, wie gut die 
Schwierigkeiten der neuen Items zu den 
Eigenschaftsauspragungen der getesteten 
Personen passen. Im konkreten Fall 
konnen sich bei einer Testverlangerung 
daher Abweichungen von der aufgrund 
von Gleichung (2) vorhergesagten Relia- 
bilitat ergeben. 

6.1.3 Berechnung von Vertrau- 
ensintervallen 

Eine wichtige Funktion der Bestimmung 
der MeBgenauigkeit eines Tests besteht 
darin, die Schwankungsbreite der einzel- 
nen Mefiwerte berechnen zu konnen. Man 
bestimmt die aufgrund des MeBfehlers zu 
erwartende Schwankung in Form von 
sogenannten Konfidenz- oder Vertrauens- 
intervallen. Ein Vertrauensintervall gibt 
den Bereich um einen geschatzten MeB- 
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wert an, in deni der ‘wahre' MeBwert niit 
einer bestimmten Wahrsehcinliehkeit 
liegt. Dies ist in Abbildung 148 
verdeutlicht. 

95% 

1 — I J ^ I 6 

e v - a 0 V 0 V + a 

Abbildung 148: Vertrauensintervall flir einen 

MeBwert 

Ein Vertrauensintervall besteht also gene- 
rell aus 

- zwei Zahlenangaben, die ein Inten’all 

auf der Zahlengerade markieren, sowie 

- aus einer Wahrscheinlichkeitsangabe, 
die spezifiziert, mit welcher Wahr- 
scheinlichkeit der tatsachliche MeBwert 
der Person innerhalb dieser Intervall- 
grenzen liegt. 

Es hat sich eingebiirgert, 95% Vertrau- 
ensintervalle anzugeben, jedoch ist das 
eine beliebige Konvention. Es kann ge- 
nauso sinnvoll sein, 50% Konfidenzinter- 
valle anzugeben, wenn man sich mit dieser 
geringeren Sicherheit zufrieden gibt. 

Voraussetzung fur die Berechnung ist die 
Kenntnis der Verteilung des Fehleranteils 
eines MeBwertes, also der Fehlervariablen 
Eq. Aus der Maximum-Likelihood-Theo- 

rie folgt (s. Kap. 4.4) daB die Schatzwerte 
von Modellparametern normalverteilt 
sind: Der Mittelwert dieser Normalvertei- 
lung ist der wahre MeBwert 0 und die 
Varianz entspricht der in Kapitel 6.1.1 
dargestellten Fehlervarianz des Personen- 
meBwertes Varf Eg ). 




Abbildung 149: Die Verteilung der Schatzwerte 
um den wahren MeBwert 0 

Abbildung 149 zeigt, wie sich die berech- 
neten Schatzwerte eines Parameters um 
den wahren Parameterwert verteilen wiir- 
den, wenn man sie wiederholt anhand 
unabhangiger Datensatze schatzen wiirde. 
Das Problem besteht nun darin, daB man 
den wahren Parameterwert nicht kennt, 
sondern nur eine einzige (fehlerbehaftete) 
Schatzung. 

Hier wendet man einen ‘Trick an (vgl. a. 
Kap 4.4), indem man die Fehlerverteilung 
um den geschdtzten Parameterwert zeich- 
net (s. Abb. 150). 




Abbildung 150: Die Fehlerverteilung um den 
wahren und den geschatzten Parameterwert 

Dies ist insofern ein vollig ‘legitimer’ 
Trick, als es nur auf die Distanz zwischen 
wahrem und geschatztem Parameteiwert 
ankommt: Die Wahrscheinlichkeit, daB 
der wahre Wert im Fehlerbereich des ge- 
schatzten Parameters liegt, ist genauso 
groB wie die Wahrsehcinliehkeit, daB ein 




6 . 1 Optimiemng der MeBgenauigkeit eines Tests 



359 



geschatzter Parameter im Fehlerbereich 
um den wahrcn Wert liegt. 

Mit Hilfe der Verteilung der Fehler- 
variable um den geschatzten Parame- 
terwert laBt sich nun das Vertrauens- 
intervall fur diese Parameterschatzung 
berechnen. Die Intervallgrenzen ergeben 
sich durch die beiden Weite der Fehler- 
verteilung, zwischen denen genau 95% der 
Flache der Glockenkurve liegen. 




A bbi I du ng 151: Die 95% Intervallgrenzen der 
Standardnomialverteilung 

Fur die Standardnormalverteilung, also 
jener Normalverteilung, die den Mittel- 
wert 0 und Standardabweielui ng 1 hat, 
betragen die Grenzen, innerhalb derer 95% 
der Flache liegen, -1.96 und +1.96. 



Intervallgrenzen der Standardnormal- 
verteilung 

Da sich die Wahrscheinlichkeit, mit der 
ein Wert zwischen zwei Grenzen einer 
Normalverteilung liegt, relativ schwer be- 
rechnen laBt, hat man diese Wahrschein- 
lichkeiten fur die Standardnormalvertei- 
lung als Tabelle den meisten Statistik- 
lehrbuchern beigefugt. Die wichtigsten 
Intervallgrenzen gibt die folgende Abbil- 
dung wieder: 



99% 




Abbildung 152: Einige wichtige Intervallgrenzen 
der Standardnormalverteilung 



Die Intervallgrenzen der Standardnor- 
malverteilung lassen sich in Intervallgren- 
zen der jeweiligen Fehlerverteilung eines 
Parameters 0 umrechnen, indem man sie 
mit der errechneten Standardabweichung 
der Fehlervariable multipliziert und zum 
jeweiligen Schatzwert addiert bzw. sub- 
trahiert. 

(1) KI: 0 v ±z a .^Var(E ev ) . 



In dieser Gleichung gibt z a die Inter- 
vallgrenze der Standardnotmalverteilung 
an und Var(E 0 ) die Schatzfehlervarianz 
(vgl. Kap 6.1.1): 



( 2 ) 




1 





Datenbeispiel 

Im KFT hat der geschatzte Personenpa- 
rameter 0 V = -1.33 einen Standardschatz- 

fehler von ^Var! Ey ) = 1.11. Somit liegt 

der wahre Parameter der Person v mit 
95%-iger Wahrscheinlichkeit zwischen 
den Werten 

-1.33 - 1.96.1.11 = -3.50 
und 

-1.33 + 1.96.1.11 = +0.84. 
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Setzt man in Gleichung (2) fur p vi die 
Losungswahrscheinlichkeiten des dichoto- 
men Rasch-Modells ein, so ergibt sich 
folgende Gleichung zur Bestimmung des 
V ertrauensintervalls : 



(3) KI: 0 v ±z o 



exp(0 v -aj 
(l + exp(0 v - Oj )) 2 



Jeder Personenparameter erhalt ein unter- 
schiedlich breites Vertrauensintervall, da 
der Personenparameter selbst Bestandteil 
der Berechnung der Fchlervarianz ist (s. 
Gleichung (3)). 

Kennt man von einem Test nur die 
Reliabilitat als globales MaB der MeB- 
genauigkeit und nicht die Fehlervarianzen 
der einzelnen PersonenmeBwerte, so las- 
sen sich auch Konfidenzintervalle berech- 
nen. Diese sind dann allerdings fiir alle 
Personen gleich groB. 

Man benotigt hierfiir neben der Reliabilitat 
des Tests auch noch die Varianz der Mefi- 
werte in der Stichprobe, um aus beidem 
die Fehlervarianz zuriickrechnen zu kon- 
nen. Lost man namlich die Reliabilitats- 
definition (s. Gleichung (4) und (5) in 
Kap. 6.1.1) nach der Fehlervarianz auf, so 
ergibt sich 

(4) Var(E 0 ) = Var(e)(l-Rel(0)) . 



Die Formel fiir die Berechnung eines 
Konfidenzintervalls sieht dann folgender- 
maBen aus 

(5) KI: 0 v ±z a -Jvar(0)(l-Rel(e)) . 

In dieser Formel bezeichnet Va{©) die 
Varianz der MeBwerte 0 in einer Stich- 



probe und z a die Grenzen der Standard- 

nomialverteilung innerhalb derer die ge- 
wiinschte Prozentzahl aller Falle liegt. 



Datenbeispiel 

Die 5 Items des KFT haben bei den 300 
getesteten Personen eine Reliabilitat von 
Rel = 0.46 und eine Varianz der MeBwerte 
von Var[())= 3.13 (vgl. Kap. 6.1.1). Nach 

Gleichung (5) ergibt sich fiir jede Person 
eine Intervallbreite (bei 95%) von 

0 V ± 1.96 -s/3.13 0. 54 =0 V ±3.31 . 

F in Vergleich mit den individuell berech- 
neten Konfidenzintervallen (vgl. Glei- 
chung (3)) zeigt, daB die Konfidenzinter- 
valle fiir die Parameter der Scores 1 bis 4 
kleiner sind: 

0 V ± 1.92 fiir die Scores 2 und 3, 

0 V ± 2.17 fiir die Scores 1 und 4. 



Die Konfidenzintervalle sind nicht nur fiir 
alle Mefiwerte gleich breit, auch das Fak- 
tum ist bemerkenswert, daB die Varianz 
der Mefiwerte in der Stichprobe Bestand- 
teil der Berechnung des Konfidenzinter- 
valls ist: je groBer die Varianz der MeB- 
werte ist, desto groBer werden auch die 
Konfidenzintervalle . 

Dies ist nicht ganz so verwunderlich wie 
es klingt, da auch die Reliabilitat ein 
varianzabhangiges Mafi darstellt, welches 
als Verhaltnis der Varianz der wahren 
MeBwerte zur Varianz der errechneten 
MeBwerte definiert ist. Durch die Mul- 
tiplikation mit der Varianz der MeBwerte 
in der Stichprobe (vgl. Formel 5) wird 
lediglich die Stichprobenvarianz wieder 
aus der Berechnung der Reliabilitat 
‘herausgeholt’. 
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Es ist daher wichtig, zur Berechnung der 
Vertauensintervalle in Gleichung (5) stets 
diejenige Varianz der MeBwerte einzuset- 
zen mit der auch die Reliabilitdt bestimmt 
wurde. 

Es wurde zu einer groben Unterschdtzung 
der Konfidenzintervalle (und damit zu 
einer scheinbar hohen Mefigenauigkeit) 
fiihren, wenn man die Reliabilitat an einer 
varianzstarken Stichprobe (z.B. in der 
Gesanitbevolkerung) bestimmt, fur die Be- 
rechnung der Konfidenzintervalle aber die 
Varianz der MeBwerte in einer sehr homo- 
genen Stichprobe (z.B. nur Psychologie- 
Studenten) verwendet. 

Die Berechnung der Konfidenzintervalle 
mittels der Reliabilitat beruht ebenfalls auf 
der Annahme, daB der MeBfehler normal- 
verteilt ist. Diese Annahme der Normal- 
verteiltheit einer Fehlervariable ist selbst 
keine besonders strenge Annahme, denn 
unabhangige Storeinfliisse, deren Effekte 
sich addieren, fiihren stets zu normal- 
verteilten Fchlervariablen. Die Frage ist 
lediglich, wie man die Varianz dieser 
Fehlervariable bestinmit. Hier unterschei- 
det sich das Vorgehen irn Rahmen der 
Maximum-Likelihood Theorie von der 
Berechnung mittels der Reliabilitat. 

6.1.4 Erhohung der Zuord- 
nungssicherheit 

Die Uberlegungen zur Berechnung und 
Verringerung des MeBfehlers eines Tests 
in den vorangehenden drei Unterkapiteln 
lassen sich nur auf Testmodelle mit quan- 
titative!- Personenvariable anwenden. Bei 
Testmodellen mit kategorialer Personen- 
variable gibt es keine Fehlervariable, 
deren Varianz man berechnen konnte. Der 
MeBfehler bei solchen qualitativen Test- 



modellen druckt sich darin aus, mit 
welcher Sicherheit man eine Person ihrer 
latenten Klasse also, ihrer Kategorie der 
Personenvariable zuordnen kann. 

Diese Zuordnungssicherheit ist allgemein 
durch die Wahrscheinlichkeit der Klassen- 
zugehorigkeit unter der Bedingung des 
gegebenen Antwortmusters in einem Test 
definiert (vgl. (11) in Kap. 3. 1.2.2): 

(1) p(g|x). g ^ pU|8) ■ 

X p(x|h) 

h=l 

Die Gleichung gilt gleicheimaBen fur alle 
Klassenmodelle und mixed Rasch-Model- 
le. Den Mefifehler verringern heiBt bei 
qualitativen Testmodellen die Zuord- 
nungssicherheit erhohen. 

Die Zuordnungssicherheiten sind spezi- 
fisch fur jede Person bzw. jedes unter- 
schiedliche Antwortmuster, konnen aber 
auch iiber alle Personen einer Klasse oder 
liber alle getesteten Personen gemittelt 
werden (s. Kap. 3. 1.2.2). 

Die Reliabilitat eines Tests entspricht am 
ehesten der iiber alle Personen gemittelten 
Zuordnungssicherheit oder Treffsicherheit 
(vgl. (14) in Kap. 3. 1.2.2): 

N 

X max g(p(g|2Sv)) 



Wie bei der Fehlervarianz gilt auch hier 
die allgemeine Regel, daB die Zuord- 
nungssicherheit mit stei gender Itemanzahl 
wcichst, sofern die hinzugefiigten Test- 
items dieselbe kategoriale Personenva- 
riable erfassen. 
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Datenbeispiel 




Fiigt man den 5 KFT-Beispielitems suk- 
zessive weitere Items aus deni gleichen 
Test hinzu und berechnet man jeweils 
die 2-Klassenlosung der Klassenanalyse, 
so steigt die Treffsicherheit folgender- 


maBen an: 




k 


T 


5 


.928 


6 


.945 


7 


,953 


8 


,953 


9 


.954 


10 


.960 


Der Anstieg ist nicht sehr groB, da die 5 


Items bereits eine 
haben. 


hohe Treffsicherheil 



Auch hier gilt, daB der Anstieg der 
Zuordnungssicherheit von der Art der 
hinzugefiigten Items abhangt. Allerdings 
ist hier nicht die Schwierigkeit des Items 
das ausschlaggebende Moment, sondem 
die Unterschiedlichkeit der Antwort- 
walirseheinliehkeiten in den Klassen: Je 
groBer diese Unterschiede sind, desto 
mein - tragt ein Item zur Zuordnungssicher- 
heit bei. 

Dies ist ein Aspekt der Itemtrennscharfe, 
der in Kapitel 6.2.2 aufgegriffen wird. 

Literatur 

Das Buch von Steyer & Eid (1993) geht 
ausfuhrlicher auf verschiedene Allen der 
Parametrisiemng des MeBfehlers im Rah- 
men der MeBfehlertheorie ein. Lienert & 
Raatz (1994) behandeln die Methoden der 
Reliabilitatsberechnung im Rahmen der 
MeBfehlertheorie, der Berechnung von 
Konfidenzintervallen und der Reliabilitats- 
steigerung durch Testverlangerung. 
Andrich (1988b) geht auf die Reliabilitats- 



berechnung beim dichotomen Rasch- 
Modell ein. 



Ubungsaufgaben 

1. Ein Test mit 3 Items hat in einer 
Stichprobe die Varianz der MeBwerte 
Var(o) = 1.44 und die Scorehaufig- 
keiten: 



r = 


0 


1 


2 


3 


n r = 


10 


20 


30 


20 


sK) 


1.0 


0.7 


0.7 


1.0 



In der dritten Zeile der Tabelle stehen 
die Standardschatzfehler (d. i. die 
Wurzel aus der Schatzfehlervarianz) 
der Personenparameter, die fur diese 
Scores geschatzt wurden. Berechnen 
Sie die Reliabilitat des Tests. 

2. Auf welchen Wert muBte die Reliabi- 
litat des KFT-Beispielstests anstei- 
gen, wenn man den 5 Items 2 weitere 
hinzufiigt, die gleiche MeBgenauig- 
keit haben? Berechnen Sie mit 
WINMIRA, auf welchen Wert die 
Reliabilitat tatsachlich ansteigt, wenn 
Sie Item Nr. 7 und 10 des 15 Items 
umfassenden Datensatzes hinzuneh- 
men. 

3. Berechnen Sie mit WINMIRA, fur 
welche Scores im NEOFFI-Datenbei- 
spiel die Personenparameter groBere 
Konfidcnzintervalle, und fur welche 
Scores sie kleinere Konfidenzinter- 
valle haben als das mittels der Relia- 
bilitat berechnete Konfidenzintervall. 
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6.2 Optimierung durch 
Itemselektion 

Die am haufigsten angewendete Technik, 
einen Test zu verbessern, besteht sicher- 
lich darin, ‘schlechte’ Items zu eliminieren. 
Man benutzt dabei die Daten einer ersten 
Erhebung mit einer umfangreichen Test- 
version, um den Test oder Fragebogen 
dann durch Testverkiirzung zu optimieren. 

Hierfiir benotigt man Kriterien dafiir, was 
ein gutes Item und was ein schlechtes Item 
ist. Ein solches Kriterium wurde bereits in 
Kapitel 6.1 behandelt, namlich der Beitrag 
eines Items zur MeBgenauigkeit des Tests. 
Es stellte sich dort heraus, dab der Beitrag 
zur MeBgenauigkeit im wesentlichen 
davon abhangt, wie gut die Schwierigkeit 
des Items zur Personenfahigkeit paBt. 

Fur die Selektion von Items ist jedoch ein 
anderes Giitekriterium fiir Items von 
zentraler Bedeutung, namlich das Ausmafi, 
in dem die Beantwortung eines einzelnen 
Items mit der zu messenden Personenei- 
genschaft zusammenhdngt. 

Je besser sich die einzelne Itemantwort 
aufgmnd der Kenntnis der zu messenden 
Personenvariable vorhersagen laBt, desto 
besser oder brauchbarer ist ein Item. 

Man kann diesen Zusammenhang zwi- 
schen Itemantwort und gemessener Perso- 
nenvariable in unterschiedlicher Weise 
formalisieren. Dies wird in Kapitel 6.2.1 
fiir quantitative Testmodelle und in Kapi- 
tel 6.2.2 fiir klassifizierende Modelle 
behandelt. 

Oft betrifft die Frage der Testoptimierung 
durch Itemselektion jedoch nicht nur die 
Eliminierung einzelner Items, sondern 



gleich ganzer Itemgruppen. Oder es stellt 
sich gar die Frage, welche Itemgruppen 
iiberhaupt eine homogene Untergruppe des 
Tests darstellen, auf die ein bestimmtes 
Testmodell erfolgreich angewendet wer- 
den kann. Moglichkeiten, solche homoge- 
nen Itemgruppen zu identifizieren, werden 
in Kapitel 6.2.3 behandelt. 



6.2.1 Itemselektion bei quan- 
titativen Modellen 



Bei quantitativen Testmodellen stellt das 
Konzept der Itemtrennscharfe oder Item- 
diskrimination ein zentrales Giitekriterium 
fiir Items dar. Der Begriff ‘Trennschdrfe’ 
zielt darauf ab, wie ‘scharf die Antworten 
auf ein Item zwischen hohen und 
niedrigen Eigenschaftsauspragungen 'tren- 
nen’, also wie gut sie die Personenstich- 
probe ‘teilen Die folgende Tabelle ver- 
deutlicht dieses Konzept: 



Personen v 



0 v 


x vl 


x v 2 


x v 3 


- 3.5 


0 


0 


0 


- 2.7 


0 


1 


0 


- 2.1 


0 


0 


1 


- 1.6 


0 


1 


0 


- 1.0 


0 


0 


0 


- 0.6 


0 


1 


0 


- 0.3 


0 


0 


1 


0.0 


0 


1 


0 


0.2 


1 


0 


1 


0.7 


1 


1 


0 


1.2 


1 


0 


1 


1.9 


1 


1 


1 


2.6 


1 


0 


1 



In diesem Beispiel von hypothetischen 
Antworten auf 3 Items trennen die Ant- 
worten auf das erste Item perfekt zwischen 
hohen und niedrigen MeBwerten. Die 
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Trennscharfe dieses Items ist maximal. 
Dagegen hat das zweite Item uberhaupt 
keine Trennscharfe, wahrend das dritte 
Item ein Antwortmuster aufweist, wie man 
es bei empirischen Daten fur ein brauch- 
bares Item erwatlen wiirde. 

Das Konzept der Itemtrennscharfe laBt 
sich in unterschiedlicher Weise operatio- 
nalisieren, oder besser: formalisieren. 

In der sog. ‘klassischen Testtheorie’, die 
hier als allgemeine MeBfehlertheorie be- 
handelt wird, ist die Trennscharfe als Kor- 
relation eines Items i mit dem Testergeb- 
nis t definiert, die sog. Item-Test-Korrela- 
tion: 

(1) r jt = Korr(0 v ,x vi ) . 

Hierbei handelt es sich um eine unter 
praktischen Gesichtspunkten sehr branch- 
bare Operationalisierung des Trennschar- 
febegriffs: wahrend die Korrelation der 
beiden ersten Spalten in der o.g. Tabelle 
bei der gegebenen Schwierigkeit des Items 
maximal ist, ist die Korrelation zwischen 
der ersten und dritten Spalte so gut wie 0. 
Gibt es im Bereich der niedrigen 
Eigenschaftsauspragungen mehr Einsen 
als bei hohen Eigenschaftsauspragungen, 
kann die Korrelation sogar negativ werden 
und man spricht dann von einer negativen 
Trennscharfe. 

Diese Operationalisierung der Trennschar- 
fe mittels des Korrelationskoeffizienten 
wird bei probabilistischen Modellen nicht 
verwendet, vor allem weil die Korrelation 
fur metrische Variablen definiert ist, die 
Itemantwort aber prinzipiell als nominal 
oder ordinal aufgefaBt wird. Ein anderer 
Grund liegt darin, daB sich ein so 
wichtiges Konzept wie die Itemtrenn- 
scharfe in den Modellparametern eines 



Testmodells ausdrucken sollte, die Item- 
Test-Korrelation aber kein solcher ist. 

Es ist daher konsequent, die Trennscharfe 
am Verlauf der Itemfunktion festzu- 
machen. Es wurde in Kapitel 3 schon 
mehrfach angesprochen, daB die Trenn- 
scharfe als Anstieg der Itemfunktion 
definiert ist. 

Auch diese Operationalisierung spiegelt 
sehr gut das Konzept der Trennscharfe 
wider, denn wenn ein Item eine steile 
Itemfunktion hat, heiBt das, daB bis zu 
einer bestimmten Eigenschaftsauspragung 
die O-Antwort extrem wahrsehcinlieh ist 
und von diesem Wert an aufwarts eine 1- 
Antwort. 



p(XvFl) 




A bbi Idung 153: Eine steile Itemfunktion bedeutet 
hohe Trennscharfe 

Bei einer flachen Itemfunktion ist die 
‘Trennung’ zwischen niedrigen und hohen 
Eigenschaftsauspragungen nicht so 
‘schaff. 

Eine naheliegende Operationalisierung der 
Trennscharfe besteht daher darin, einen 
eigenen Parameter fur den Anstieg der 
Itemfunktion einzu fiihren. Dies ist im sog. 
Birnbaum-Modell (auch 2-parametriges 
logistisches Modell genannt) geschehen 
(vgl. Kap. 3. 1.1. 2.3): 
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(2) p ( x vi ) 



e xp( x vi Pj (e v — CTj )) 
l + ex P (p i (e v -a i )) ’ 



x e {0, 1} . 



In diesem Modell bestimmt ein zweiter 
Itemparameter Pj den Anstieg der Item- 
funktion. 



Die Formalisierung der Trennscharfe 
durch einen zweiten, multiplikativen Para- 
meter full it jedoch zu groben statistischen 
Problemen, die damit zusammenhangen, 
dal?) die Parameterverknupfung im Expo- 
nenten der logistischen Funktion nicht 
nichr rein additiv ist. 

Zudem hat sich herausgestellt, dab bei 
drei- und mehrkategoriellen, ordinalen 
Itemantworten der Anstieg der Itemfunk- 
tion eine Funktion der Schwellendistanzen 
ist: je enger die Schwellen beieinander 
liegen, desto steiler ist die Itemfunktion, 
die jetzt als Funktion der erwarteten 
Itemantwort von der Personeneigenschaft 
definiert ist (vgl. Kap. 3.3.2). 



RX „> 




Abbildung 154: Die Steigung der Itemfunktion in 
Abhangigkeit von der Distanz zweier Schwellen Tj 
und To 

Da es bei dichotomen Antworten nur eine 
Schwelle, also keine Schwellendistanz 
gibt, miissen dort alle Itemfunktionen den- 
selben Anstieg haben. Von 3 Kategorien 
an aufwarts braucht man keinen multi- 



plikativen Trennscharfeparameter nichr, da 
jetzt die Steigung der Itemfunktion von 
der Schwellendistanz abhangt. 

Aber auch diese Formalisierung der 
Trennscharfe als iiber die Schwellendi- 
stanzen vermittelte Steigung der Item- 
funktion hat zu einem Problem der Ver- 
wendung der Trennscharfe als Giite- 
kriterium gefiihrt. Ublicherweise wird die 
Trennscharfe als Giitekriterium so ver- 
wendet, dab ein Item umso besser ist, je 
grofier seine Trennscharfe ist. 

Bei mehrkategoriellen, ordinalen Itemant- 
worten frill rt das zu dem Paradoxon, dab 
ein Item umso trennscharfer ist, je weniger 
die mittleren Antwortkategorien verwen- 
det werden. In dem folgenden hypothe- 
tischen Beispiel hat das erste Item die 
geringsten Schwellendistanzen, somit die 
steilste Itemfunktion und daher die 
hochste Trennscharfe. 



Personen v 



% 


x vl 


x v 2 


-3.5 


0 


0 


-2.7 


0 


0 


-2.1 


0 


0 


-1.6 


0 


1 


-1.0 


0 


1 


-0.6 


0 


1 


-0.3 


3 


1 


0.0 


3 


2 


0.2 


3 


2 


0.7 


3 


2 


1.2 


3 


3 


1.9 


3 


3 


2.6 


3 


3 



Obwohl die Itemantworten fur das zweite 
Item so verteilt sind, wie man es sich fur 
ein 'gutes' Item wiinschen wiirde, hat es 
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eine geringere Steigung der Itemfunkdon scheinlichkeit ist, desto besser ist das 
und damit eine kleinere Trennscharfe. Item. 



‘Paradox’ ist dieser Effekt, weil man sich 
von mehrkategoriellen Itemantworten na- 
tiirlich wiinscht, daB die mittleren Ant- 
wortkategorien nicht nur benutzt werden, 
sondem auch im Mittelbereich der latenten 
Dimension diskriminieren, d.h. zwischen 
Personen mit ‘mittelhohen’ und ‘mittel- 
niedrigen’ Eigenschaftsauspragungen tren- 
nen. Dies kann im o.g. Beispiel Item 2 
offenbar besser als Item 1. 

Sinnvoller ist ein Gutekriterium zur Item- 
Selektion, das die Benutzung der mittleren 
Antwortkategorien zumindest nicht 'be- 
st raft Beide Items im obigen Beispiel 
sollten von einem solchen Gutekriterium 
gleich gute Trennscharfe bescheinigt be- 
konmien. 

Ein solches Gutekriterium ist der sog. Q- 
Index, ein Itemfit-MaB, das von der 
Wahrscheinlichkeit des beobachteten Item- 
vektors ausgeht. Mit Itemvektor ist der 
Spaltenvektor in der Datenmatrix gemeint, 
der alle Antworten bezuglich eines Items 
enthalt: 



1 

2 



Person . 



N 



Item 

i 







0 










2 










3 










1 










4 










2 










0 







Jeder dieser Spaltenvektoren hat aufgrund 
der geschatzten Modellparameter eine be- 
stinmite Wahrscheinlichkeit, die dazu her- 
angezogen werden kann, die Gute des 
Items zu beurteilen: Je hoher diese Wahr- 



Berechnet man solche Wahrscheinlich- 
keiten fur ganze Spaltenvektoren, so erhalt 
man schr kleine Werte, die nahe bei 0 
liegen. Was man daher benotigt, ist ein 
Vergleichsmajistab, urn die Wahrschein- 
lichkeit des Spaltenvektors zu beurteilen. 
Einen solchen VergleichsmaBstab bilden 
die maximal und minimal erreichbaren 
Wahrscheinlichkeiten eines Spaltenvek- 
tors. Je dichter die Wahrscheinlichkeit des 
beobachteten Itemvektors (p beo ) an der 
maximalen Wahrscheinlichkeit (p max ) 
liegt, desto besser ist das Item. Je dichter 
es an der minimalen Walirsehcinliehkeit 
(Pmin) liegt. desto schlechter ist es. 

0 1 
I I p(x) 

t t t 

Pmin Pbeo Pmax 

Abbildung 155: Die Einordnung der Wahrschein- 
lichkeit des beobachteten Pattern in das Intervall 
von minimaler und maximaler Wahrscheinlichkeit 

Diese drei Wahrscheinlichkeiten, p min , 
p iinrl P lassen sich anhand der 

r beo LU1U r max? 

geschatzten Modellparameter berechnen, 

N 

(3) p(xi)=n p( x vi)? 

V=1 

x i ~ ( x li? x 2i‘” x vi“‘ x Ni ) > 

wenn man neben dem beobachteten 
Vektor x beo auch den Vektor mit der ma- 
ximalen, & max , und der minimalen Wahr- 
scheinlichkeit, jc mm , kennt. 
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Die Ermittlung der Pattern mit ma- 
ximaler und minimaler Wahrschein- 
lichkeit 

Es werden hier nicht die Pattern mit der 
absolut hochsten oder niedrigsten 
Walirseheinliehkeit gesucht, sondem 
diejenigen Pattern, die unter der Bedin- 
gung der beobachteten Kategorienhau- 
figkeiten die maximale oder minimale 
Walirseheinliehkeit haben. Hat ein Item 
m + 1 Antwortkategorien (von 0 bis m) 
und ist jede Kategorie x mit der Hau- 
figkeit n ix aufgetreten, so geht es um 
die bedingten Wahrsehcinhehkeiten 

p(xi|n i 0 ,n ir --n im ) . 

Die Pattern, fur die diese bedingten 
Wahrscheinlichkeiten maximal oder 
minimal sind, lassen sich leicht finden, 
indem man die Personen nach aufstei- 
gender Eigenschaftsauspragung ordnet: 
Fur die beiden gesuchten Pattern sind 
dann namlich die Itemantworten eben- 
falls aufsteigend bzw. absteigend ge- 
ordnet: 



K 


— beo 


Y 

—max 


X 

—min 


-3.5 


l 


0 


3 


-2.7 


0 


0 


3 


-2.1 


0 


0 


3 


-1.6 


2 


1 


2 


-1.0 


0 


1 


2 


-0.6 


1 


1 


2 


-0.3 


1 


1 


1 


0.0 


2 


2 


1 


0.2 


3 


2 


1 


0.7 


1 


2 


1 


1.2 


3 


3 


0 


1.9 


2 


3 


0 


2.6 


3 


3 


0 



Damit ist das beobachtete, das maximale 
und das minimale Itempattern eindeutig 
definiert und es lassen sich deren Wahr- 
sehcinhehkeiten berechnen. 

Um ein ItemgiitemaB zu erhalten, wird ein 
Index gebildet, der zwischen 0 und 1 liegt 
und der ausdruckt, inwieweit die Wahr- 
scheinlichkeit des beobachteten Pattern 
vom Minimum bzw. vom Maximum 
entfernt liegt. Es handelt sich um ein 
Verhaltnis von logarithmierten Wahr- 
scheinlichkeitsverhaltnissen: 




Dieser Index variiert zwischen 0 und 1 : Er 
wird 0, wenn das beobachtete Pattern das- 
jenige mit maximaler Wahrscheinlichkeit 
ist (da dann der Zahler von Q, Null wird, 
log( 1) = 0), und er wird 1, wenn das be- 
obachtete Pattern dasjenige mit minimaler 
Walirseheinliehkeit ist (da dann der Zahler 
und Nenner von Q, gleich sind). Es han- 
delt sich also um ein Abweichungsma.fi: Je 
grofier del' Q-Index, desto schlechter das 
Item. 

Der Index nimmt den Wert 0.5 an, wenn 
die Antwortkategorien vollig zufdllig iiber 
den Vektor verteilt sind, und er wird 
groBer als 0.5, wenn die hoheren Antwort- 
kategorien eher bei niedrigen Eigen- 
schaftsauspragungen auftreten (was einer 
‘negativen Trennscharfe im Sinne der 
Item-Test-Korrelation entspricht, S.O.). 
Items mit einem Q-Wert von 0 sind in 
dieser Formalisierung von Trennscharfe 
maximal trennscharf. 
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Setzt man in Gleichung (4) fur die 
verschiedenen 

Pattern walirschcin I iehkei ten die Produkte 
der Itcmldsungswahrsehcinliehkeiten des 
ordinalen Rasch-Modells ein, d.h. 



(5) 



N 

pUi)=n 

V=1 



exp(x vi e v -o ix ) 
m / \ 

X exp(s 0 V - o is j 

s=0 



exp 


r ) 

X x vi e v 


• exp 


{ m 

-X n ix<hx 








V x=0 ) 



N ra 

[I X exp(se v -a is j 



v=l s=0 



Datenbeispiel 

Die Q-Werte fur die 5 KFT-Items lauten: 



i 



1 


0.09 


2 


0.04 


3 


0.09 


4 


0.03 


5 


0.11 



Demnach weichen das erste und fiinfte 
Item am starksten vom maximalen Pat- 
tern ab, sind also am wenigsten trenn- 
scharf. 



wobei n ix die Haufigkeit von Kategorie x 
bezeichnet (s.o.), so kiirzt sich einiges aus 
den Wahrscheinlichkeitsverhaltnissen her- 
aus. 

Da fur alle drei P a t tern w ahr s che inlichke i- 
ten die Nenner der entsprechenden Aus- 
drucke sowie der zweite Faktor inn Zahler 
gleich sind (die n ix sind per Definitionenn 
fur alle 3 Pattern gleich), konnen diese 
beiden Terme im Q-Index weggekurzt 
werden. Es ergibt sich fur den Itemfit- 
Index Q, der folgende Ausdruck: 

Ixr x e v 

i xr e v • 

v 

Zur Berechnung des Q r Index benotigt 
man also nicht den Schwierigkeits- 
parameter dieses Items, sondern allein die 
Fahigkeitsparameter 0 V . Die Kategorien- 
haufigkeiten n ix braucht man zur Ermitt- 
lung der Pattern mit maximal er bzw. 
minimaler W ahrsehci nl iehkeit. 



X*re v - 



(6) Qi = ^r-™ir 



Die Q-Werte von ‘brauchbaren' Items lie- 
gen zwischen 0.0 und 0.3, jedoch hangt 
dies auch von bestimnnten Charakteristika 
der Verteilung der Itemschwierigkeiten 
und Personenfahigkeiten ab. 

Es ist ein naheliegender FehlschluB anzu- 
nehrnen, daB bei perfekter Modellgeltung 
alle Q-Indices 0 werden. Aufgmnd des 
probabilistischen Antwortverhaltens ist 
der Erwartungswert von Q unter der Be- 
dingung der Modellgeltung grofier als 
Null. Da Q eine lineare Funktion von 
Modellparametern ist, die nach der 
Maximum-Likelihood Methode geschatzt 
wurden (vgl. Kap. 4.2), hat Q einen 
normalverteilten Schatz.fehler, dessen 
Varianz berechenbar ist (vgl. Kap. 4.4). 

Erwartungswert und Varianz von Q 

Der Nenner von Q stellt eine von den 
beobachteten Daten unabhangige Kon- 
stante dar, so daB lediglich der Erwar- 
tungswert des Zahlers berechnet wird. Der 
Zahler stellt eine gewichtete Summe der 
Fahigkeitsparameter dar, namlich 

Q* = X(x5“e v -xr x e v ). 

v— t 






6.2 Optimierung durch Itemselektion 



369 



so daB der Erwartungswert dieser Summe 
gleich der Summe der Erwartungswerte 
der Summanden ist 

Erw(Q z )= £ (Erw(x^ eo 0 V )- X r x e v ). 

V — 1 



Der jeweils zweite Summand hangt 
wiederum nicht von den Daten ab: er stellt 
eine Konstante dar, deren Erwartungswert 
die Konstante selbst ist. Der Erwar- 
tungswert des jeweils ersten Summanden 
kann mit Hilfe der Wahrscheinlichkeits- 
verteilung von x v berechnet werden: 

Erw(xy eo 0 V )= X P v ( x ) x6 v, 

x=0 

wobei p v (x) die laut Modellgleichung be- 
rechnete Antwortwalirsehcinliehkeit von 
Person v fur Kategorie x (bei diesern Item) 
ist. 

Fiir die Berechnung der Varianz von Q z 
benotigt man nur die Varianzen der je- 
weils ersten Summanden, da der Subtra- 
hend als Konstante nichts zur Varianz 
beitragt: 

Var( Q z ) - £ Var(x v 0 V ) ■ 

V=1 

Die Varianz von x v 0 V ist die Varianz des 
Produktes von zwei Zufallsvariablen und 
laBt sich folgendermaBen berechnen: 

Var(x v 6 V ) 

= Var(e v ) Var(x v ) + 0^ Var(x v ) + Var(9 v )Erw(x v )~, 

wobei 



und 



m 

Erw(x v )= X Pv( x ) x 
x=0 



m 9 

Var(x v )= ^ p v ( x ) ( x - Erw( x )) . 

x=0 



Mittels des Erwartungswertes und der 
Varianz des Zahlers von Q, Q , laBt sich 
eine Standard-normalverteilte Prufgrofie, 
eine sog. Z-Statistik berechnen: 



(7) 



Z Q = 



Q z -Erw(Q z ) 

Jv4q z ) 



Mit Hilfe derer kann man priifen, ob ein 
empirisch ermittelter Q-Index signifikant 
von dem unter Modellgeltung zu erwar- 
tenden Q-Index abweicht. Ist Zq bei Wahl 
der ublichen 95%Grenze kleiner als -1.96 
oder groBer als +1.96, so weicht der be- 
rechnete Q-Index bedeutsam von dem bei 
Modellgeltung zu erwartenden Wert ab 
(vgl. Kap. 6.1.3). 



Datenbeispiel 

Die Q-Indices der 5 KFT-Items haben 
folgende ZQ-Werte: 



i 


Q, 


Z Q 


1 


.09 


0.47 


2 


.04 


-0.68 


3 


.09 


0.34 


4 


.03 


-1.02 


5 


.11 


0.92 



Demnach hat nur das 5-te Item eine 
etwas schlechtere Modellanpassung oder 
Trennscharfe. 



Den Q-Index kann man zur Optimierung 
eines Tests heranziehen, indem man Items 
mit einem zu grofien Q-Index eliminiert. 
Verkiirzt man den KFT auf die ersten vier 
Items, laBt man also das schlechteste Item 
weg, so ergibt sich ein % 2 -Wert zur Prii- 
fung der Reproduzierbarkeit der Pattern- 
haufigkeiten (s. Kap. 5.2) von 22.5 bei 8 
Freiheitsgraden. elegiert man dagegen 
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ein gutes Item, z.B. das zweite, so erhalt 
man einen / 2 -Wert von 26.6 bei ebenfalls 
8 Freiheitsgraden, also einen deutlich 
schlechteren Wert. Allerdings sind beide 
Werte noch signifikant, d.h. auch die 
Selektion des schlechten Items, Nr. 5, 
bewirkt nicht, dab das Rasch-Modell auf 
die Daten pa lit. 

Auch die Reliabilitat verandert sich 
infolge der Itemselektion: bei Eliminie- 
mng des ‘schlechten’ Items 5 sinkt sie von 
0.460 auf 0.341. Selegiert man dagegen 
das ‘gute’ Item 2, so sinkt sie auf 0.279. 

Die Reliabilitat eines Tests kann sogar 
grofier werden wenn man unpassende 
Items selegiert. Ein Beispiel hierfiir sind 
die 5 Extraversions-Items des NEOFFI, 
die in Kapitel 3.3.5 als Datenbeispiel 
verwendet wurden. Wendet man das 
ordinale Rasch-Modell auf die Daten an, 
so haben die 5 Items eine Reliabilitat von 
0.46. Eliminiert man das Item mit dem 
g ro B ten Q-Index, so haben die resthchen 4 
Items eine Reliabilitat von 0.47. Der 
Anstieg ist nicht grob, aber dafiir, dab der 
Test auf 80% verkurzt wurde und infolge 
dessen unreliable!' werden miibte (s. Kap. 
6.1) ist er doch beachtenswert. 

In der Einleitung des Kapitels 6 wurde 
gesagt, dab eine Itemselektion nach der 
Trennscharfe der Items die interne Vali- 
dity des Tests, also die Modellgultigkeit 
optimiert und nicht so sehr die Meb- 
genauigkeit. Die Beispiele zeigen, dab 
sich auch die Reliabilitat in entsprechen- 
der Weise verandert. 

Das liegt damn, dab die Reliabilitat ein 
kombiniertes Mab fur Mebgenauigkeit und 
interne Validitat ist. Man erkennt das an 
der Reliabilitatsdefinition (s. Gleichung 
(7) in 6.1.1): 



X Var(E e J 

(8) Rel(0) = 1 - — -nr r-. 

N Var(0 ) 

Die Schatzfehlervarianzen V ;(' Eg) im 

Zahler von (8) werden durch Itemselektion 
stets grober, und zwar unabhangig von der 
Trennscharfe der selegierten Items. Sie 
hiingen allein von der Anzahl der Items 
und deren Schwierigkeiten ab (s. Glei- 
chung (2) in 6.1.1). Insofern optimiert eine 
Itemselektion nach Trennscharfe nicht die 
Mebgenauigkeit im Sinne der Verringe- 
rung der Fehlervarianz. 

Die Eliminierung trennschwacher Items 
erhoht jedoch die Varianz der Mefiwerte , 
Var(0 ) , im Nenner von (8). Diese ist 

umso grober, je holier die Itemantworten 
kovariieren: Die Varianz der Summen- 

scores r v = ^ x vi ist als Varianz einer 
i=l 

Summe von Variablen auch von der 
Kovarianz der Sunmianden abhangig (s. 
Kap 2.1.2) und die Varianz der Mebwerte 
0 V wachst mit der Varianz der Sum- 
menscores. 

Eine Itemselektion nach Trennscharfe 
kann daher den Nenner von (8) starker 
erhohen als der Zahler wachst und somit 
zu einer Reliabilitatssteigerung fiihren. 
Die Reliabilitat ist somit als ein kombi- 
niertes Mab fur Mebgenauigkeit und inter- 
ne Validitat anzusehen und als Kriterium 
fiir die Testoptimierung gut geeignet. 

Bei der Prufung der Abweichung eines 
berechneten Q-Wertes von seinem Erwar- 
tungswert mittels der Zq-Statistik sind die 
beiden Richtungen zu unterscheiden, dab 
der Q-Index signifikant kleiner oder 
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signifikant grofier als sein Erwartungswert 
ist, d.h. dab der Z-Wert negativ oder 
positiv ist. 

Ein zu kleiner Q-Wert bedeutet, dab die 
beobachteten Itemantworten weniger von 
den vorhergesagten Itemantworten ab- 
weichen als dies unter Modellannahmen 
zu erwarten ist. Dies ist eine seltsame Art 
von Modellverletzung, da das Item sozu- 
sagen ‘zu gut' pabt. 

Man spricht in diesem Fall auch von 
einem Overfit, d.h. von einer Uberanpas- 
sung. Man kann sich einen solchen Overfit 
so vorstellen, dab zu wenig Probabilistik 
in den Daten ist, d.h. dab jede Person 
exakt die Antwortkategorie auswahlt, die 
ihrer Eigenschaftsauspragung entspricht. 

Das Gegenstiick hierzu, also positive Z- 
Werte oder ein Q-Index, der signifikant 
grofier als sein Erwartungswert ist, be- 
zeichnet man als Underfit. Dies stellt den 
eigentlich interessierenden Fall einer Mo- 
dellabweichung dar im Sinne einer zu ge- 
ringen Abhangigkeit der Itemantwort von 
der Eigenschaftsauspragung, also einer zu 
geringen Trennscharfe. 

Das Besondere an der Operationalisierung 
der Trennscharfe durch den Q-Index 
besteht darin, dab man inferenzstatistisch 
priifen kann, ob ein Item eine zu geringe 
Trennscharfe hat. Das ist bei der Item- 
Test-Korrelation r it (s. (1)) nicht moglich. 

Eine weitere Moglichkeit, die Modellan- 
passung einzelner Items zu priifen, basiert 
auf den sogenannten Itemresiduen. Als 
Residuen bezeichnet man die Differenzen 
zwischen theoretisch erwarteten und beob- 
achteten Groben. Ein Itcmresiduum ist die 



Differenz zwischen theoretisch erwarteter 
und beobachteter Itemantwort. 

Hat eine Person bei einem dichotomen 
Item aufgrund ihr er Fahigkeit 0 V und der 
Itemschwierigkeit a; z.B. die Losungs- 
wahrscheinlichkeit 0.75, so betragt ihr 
Itemi'esiduum 1-0.75 = 0.25, wenn sie 
das Item gelost hat, bzw. 0-0.75 = -0.75, 
wenn sie das Item nicht gelost hat. All- 
gemein ist das Itemi'esiduum fur dichoto- 
me Items folgendeimaben definiert: 

(9) Res vi = x vi — p(x vi = 1 ), fiir xe{0,l}. 

An dieser Definition zeigt sich ein 
Problem der Verwendung von Itemresi- 
duen zur Konstruktion von Itemfitmaben: 
Die beobachtete Itemantwort kann in den 
seltensten Fallen genau der theoretisch 
erwarteten Itemantwort entsprechen, da sie 
nur ganzzahlige Werte annimmt. Bei 
Personen mit mittleren Lbsungswahr- 
scheinlichkeiten sind die Residuen daher 
stets grofier als bei Personen mit extremen 
Lbsungswahrscheinlichkeiten, selbst wenn 
die Personen ganz im Sinne des Test- 
modells antworten. 

Fiir ordinate Itemantworten lautet die 
entsprechende Definition eines Residu- 
ums: 

(10) Res vi =x vj -Erw(x vj ),fiir xe{0,m}, 

wobei der Erwartungswert der Itemant- 
wort wie iiblich definiert ist: 

(11) Erw(x vi )= £ x p( X vi = x vi)' 

x=0 

Der Erwartungswert stellt einen Punkt auf 
der Antwortskala dar, in dessen Nahe die 
Itemantwort idealerweise zu erfolgen hatte 
(s. Abb. 155). 
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P( x vi) 




Abbildung 155: Erwartete Itemantwort 

Auch hier liegt die zu erwartende Item- 
antwort in der Regel zwischen den vorge- 
gebenen Antwortkategorien, so dab es in 
jedern Fall ein Residuum gibt. 

Diese Residuen lassen sich Liber alle Per- 
sonen addieren , so dab die Sumrne aller 
Residuen bzw. eine entsprechend transfor- 
mierte Globe etwas iiber die Giite des 
Items aussagt. Obwohl die Moglichkeit, 
Itemfitmabe auf Residuen aufzubauen, 
sehr anschaulich ist, birgt sie doch einige 
Schwierigkeiten, die mit der zuvor darge- 
stellten Eigenschaft zusammenhangen, dab 
es stets Residuen einer bestimnrten Grobe 
geben mufi. Dieser Ansatz wird daher im 
folgenden nicht weiter ausgefiihrt. 

Das Vorgehen, mit Hilfe von Itemresiduen 
oder deni Q-Index abweichende Item- 
vektoren zu identifizieren, stellt ein 
Verfahren der Itemselektion dar, fiir das es 
keinerlei prdexperimentieller Hypothesen 
bedarf. Oft hat man jedoch bestinmite 
Annahmen dariiber, dab einzelne Items in 
bestimmten Teilpopulationen eine unter- 
schiedliche Bedeutung und daher eine 
unterschiedliche Schwierigkeit haben. 

In diesen Fallen kann man priifen, ob die 
Modellparameter fiir das betreffende Item 
in den jeweiligen Teilpopulationen iiber- 
einstimmen. Hierfiir schatzt man die Item- 
parameter z.B. getrennt fiir Manner und 



Frauen oder getrennt fiir Experimental- 
und Kontrollgruppe, urn sie anschliebend 
miteinander zu vergleichen. 

Bei alien Rasch-Modellen diirfen sich die 
Itemparameterschatzungen nicht zwischen 
Personenteilstichproben unterscheiden. Ob 
beobachtete Unterschiede zwischen Item- 
parameterschatzungen signifikant sind, 
liibt sich mit Hilfe der Schatzfehlervarian- 
zen fiir die Itemparameter, beantworten 
(vgl. Kap. 4.4, Gleichung (8)). 

Bezeichnet man die Schatzfehlervarianzen 
eines Items in zwei Stichproben nrit 

Var(E 0j| )bzw. Var (i 0j2 .) so kann man 

nrit folgendenr Z-Wert die Signiftkanz der 
Abweichung zweier Itemparameterschat- 
zungen <T; j und a l2 priifen: 

A A 

( 12 ) Z - °‘ 2 — . 

1 |var(E„J + Var(E 0i! ) 

1st dieser Z-Wert grober oder kleiner als 
der kritische Z-Wert ±1.96, so unter- 
scheiden sich die beiden Itemparameter 
nrit einer Wahrscheinlichkeit von 95% 
voneinander. 

Das iibliche Vorgehen bei der Itemse- 
lektion besteht darin, dab man Items mit 
einer zu geringen Modellanpassung elimi- 
niert und die Testergebnisse unter Aus- 
schlub dieser Items neu berechnet. Ob- 
wohl dieses Vorgehen bei jeder Testent- 
wicklung angewendet wird, birgt es das 
Problem in sich, dab man nachtraglich, 
d.h. nach Datenerhebung die Daten mani- 
puliert (in diesem Fall Items elinriniert), 
uni sie mit der Theorie konform zu 
nrachen. 
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Eine derartige nachtragliche Datenmanipu- 
lation erfordert in jedem Fall eine Kreuz- 
validierung, d.h. eine erneute Datener- 
hebung und Uberprufung der Modell- 
geltung fur den reduzierten Test. 1st eine 
Kreuzvalidiemng nicht durchfiihrbar, soil- 
ten wenigstens post-hoc Hypothesen dar- 
iiber aufgestellt werden, warum ein Item 
nicht modellkonfomi ist. 

6.2.2 Itemselektion bei 
klassifizierenden Modellen 

Auch fur die Itemselektion im Rahmen 
von klassifizierenden Modellen gilt als 
Gutekriterium das AusmaB, mit dem die 
Beantwortung eines Items mit der Perso- 
neneigenschaft zusammenhangt. Ein Item 
ist dann umso besser, je besser man von 
der Antwort auf dieses Item auf die 
Klassenzugehorigkeit der Person sell lie Ben 
kann. Dieser SehluB gelingt umso eher, je 
mein' sich die Antwortwahrscheinlichkei- 
ten fur dieses Item zwischen den Klassen 
unterscheiden. 

Fur dichotome und ordinale Itemantwor- 
ten laBt sich ein ItemgiitemaB berechnen, 
das die Abweichungen der erwarteten 
(mittleren) Itemantworten zwischen den 
Klassen in Beziehung setzt zu der Valua- 
tion der Itemantworten innerhalb der 
Klassen. Diesem GiitemaB liegt die Idee 
zugrunde, daB die Unterschiede im mitt- 
leren Antwortniveau zwischen den Klassen 
daran relativiert werden miissen, wie breit 
die Antworten bei dem Item innerhalb der 
Klassen streuen, wie homogen also die 
Personen in den Klassen sind. Ist die 
Streuung der Antwortvariable innerhalb 
einer Klasse gering, so kann schon ein 
kleiner Unterschied im Antwortniveau 
zwischen den Klassen auf eine gute 
Trennscharfe hinweisen. Ist die Streuung 



in den Klassen dagegen groB, muB auch 
der Unterschied zwischen den Erwar- 
tungswerten der Klassen groBer sein, um 
von einer hohen Trennscharfe sprechen zu 
konnen. 

Der auf diesem Konzept basierende Dis- 
kriminationsindex ist als Varianzverhaltnis 
definiert, namlich als das Verhaltnis der 
Varianz der erwarteten Itemantworten zwi- 
schen den Klassen zur mittleren Varianz 
der Itemantworten innerhalb der Klassen: 

Var(Erw(x;|g)) 
a) P ' = X n g v ar ( x i|g) 

g 

Der Erwartungswert der Itemantworten 
innerhalb der Klasse g ist folgendermaBen 
definiert : 

m 

(2) Erw(xj|g)= X X7t ixg , 

x=0 

wobei 7tj X g die K atego r i e n wa hrscheinlich- 

keit von x in Klasse g ist (laut Modellglei- 
chung (3) in Kap. 3.2.1 oder (1) in Kap. 
3.3.3). 

Die Varianz der Itemantworten innerhalb 
einer Klasse g ist nach der Varianz- 
berechnung mittels der Wahrscheinlich- 
keitsverteilung (s. Kap. 6.1.1): 

(3) Var( Xi |g)= X (x-Erw(xi|g)) 7t ixg . 

x=0 

Die im Nenner von D, benotigte mittlere 
Varianz ist gleich der mit den Klassen- 
groBen gewichteten Summe uber alle 
Klassen. Auch die Varianz im Zahler von 
D; laBt sich uber die gewichtete Summe 
der Erwartungswerte berechnen: 
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(4) Var(Erw(x 1 |g)) = 





f g y 


Erw(xi|g) - 


X Jtg Erw(xj|g) 




,g=i /. 



Der Diskriminationsindcx wird 1, wenn 
die Itemantworten zwischen den Klassen 
nicht starker variieren als innerhalb der 
Klassen, die Trennschdrfe dieses Items 
also gering ist. Er kann natiirlich auch 
kleiner als 1 (aber nicht negativ) werden, 
wenn die Trennscharfe noch geringer ist. 
Nach oben ist D, nicht begrenzt. 



Datenbeispiel 

Die Diskriminationsindices lauten fur die 
2-Klassenlosung des KFT-Beispiels: 

D, = 0.46 
D 2 = 1.42 
D 3 = 0.50 
D 4 = 0.70 
D 5 = 0.18 

Demnach stellt Item 5 das trennschwach- 
ste Item und die Items 2 und 4 die 
trennscharfsten Items dar. 



Die mittlere Zuordnungswahrschein- 
lichkeit (Treffsicherheit) betragt fiir die 5 
Items T = 0.928. LaBt man das zweite 
Item weg, so sinkt die Treffsicherheit auf 
T = 0.914. Eliminiert man dagegen das 
trennschwache Item 5, so steigt die 
Treffsicherheit auf T = 0.938. 

Bei der Anwendung des Diskriminations- 
indexes zur Itemselektion ist zu beachten, 
daB er die Diskri mi nation beziiglich alter 
Personenklassen ausdriickt. Es kann je- 
doch auch passieren, daB einzelne Items 
sehr gut zwischen zwei Klassen diskrimi- 
nieren aber nicht zwischen den ubrigen. 
So kann es durchaus sinnvoll sein, ein 



Item trotz eines niedrigen Diskrimina- 
tionsindexes im Test zu belassen, weil es 
zur Unterscheidung zweier Klassen beson- 
ders gut geeignet ist. 

Dieser Index ist nur fiir dichotome oder 
ordinale Itemantworten geeignet, da fiir 
echte nominale mehrkategorieUe Antwort- 
variablen der Erwartungswert und die 
Varianz der Antwortvariablen keinen Sinn 
machen. Bei nominalen Itemantworten 
gibt es bislang keinen vergleichbaren 
Itemindex, so daB hier auf einen Einzel- 
vergleich der Kategorienwahrscheinlich- 
keiten zwischen den Klassen zuriickge- 
griffen werden muB. 

Auch bei mixed Rasch-Modellen fiir 
dichotome oder ordinale Antworten ist 
dieser Index nicht geeignet, da es dort 
innerhalb der Klassen eine Variation der 
Eigenschaftsauspragungen gibt. Da diese 
Modelle gleichzeitig eine kategoriale und 
eine quantitative Personenvariable mes- 
sen, kann sich die Uberpriifung der 
Itemgiite auch auf beide Diskriminations- 
leistungen beziehen: 

- Inwieweit ein Item zwischen zwei 

Klassen trennt, laBt sich an der Dif- 
ferenz der klassenspezifischen Item- 
parameter ablesen. Gegebenenfalls 
kann diese Differenz mittels der 
Schatzfehlervarianzen der Itempara- 
meter auf Signifikanz getestet werden 
(vgl. Gleichung (12) im vorangehenden 
Kap. 6.2.1). 

- Inwieweit ein Item innerhalb einer 
Klasse eine hohe Trennscharfe hat, 
kann mittels des Q r Index iiberpriift 
werden, der in diesem Fall klassenspe- 
zifisch zu berechnen ist, also getrennt 
fiir alle Personen einer Klasse. 
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Welches Kriterium man bei einer Item- 
Selektion in welcher Weise zu beriicksich- 
tigen hat, kann nicht generell beantwortet 
werden, sondern hangt vom jeweiligen 
Test ab. 



Datenbeispiel 

Fur die 5 Extraversions-Items des 
NEOFFI (vgl. Kap. 3.3.5) sehen die 
beiden genannten Selektionskiiterien fol- 
gendermaBen aus: 

z Qi2 

~-0J6 
1.17 
0.37 
- 0.09 
- 0.5 

Nach den klassenspezifischen Itempara- 
metern c lg trennt das dritte Item am 

besten zwischen den beiden Klassen 
(O 32 — 03 j = 0.87) und die ersten beiden 
Items trennen am schlechtesten. 

Hinsichtbch der Itemgute innerhalb der 
beiden Klassen zeigen alle Items eine re- 
lativ gute Modellanpassung. Den groBten 
Z-Wert hat Item 2 in Klasse 2, der aber 
auch nicht signifikant ist. 



CT il 



°i2 



Oil 



Qi2 



'Qi 1 



0.01 



0.14 



.13 



.18 



- 0.21 



0.66 



0.53 



.15 



.27 



0.15 



- 0.68 



0.19 



.13 



.23 



- 0.14 



0.80 



0.23 



.20 



.23 



0.81 



- 0.79 



- 1.09 



.13 



.23 



- 0.40 



Vergleicht man beide Klassen einmal 
anhand ihrer Q-Werte und einmal anhand 
ihrer Z Q -Werte, so fallt ein Phanomen auf, 
das auf eine Eigenschaft von genereller 
Bedeutung hinweist: Die Q-Indices selbst 
sind samtlich fur die 2. Klasse groBer, 
wahrend die zugehorigen ZQ-Werte diesen 
Unterschied nicht in gleicher Weise 
widerspiegeln. 

Ganz drastisch ist dieses Phanomen beim 
ersten und vierten Item , die in der 2. 
Klasse eine hoheren Q-Wert, aber laut Zq- 
Statistik eine bessere Modellanpassung 



haben (negative Z Q -Werte!) als in der 
ersten Klasse. 

Dies hangt mit der sogenannten Power des 
Signifikanztests zusammen, welche von 
der Variant der Personenparameter 
abhangt. 



Power eines Signifikanztests 

Unter der Power (dt. = Kraft, Machtigkeit) 
eines Signifikanztests versteht man die 
Leichtigkeit, mit der eine Prufstatistik zu 
einem signifikanten Resultat fiihrt, also 
ihre Machtigkeit, Modellabweichungen 
‘aufzuspiiren’. 



DaB die Power von Z Q von der Varianz 
der Personenfahigkeiten abhangt, ist leicht 
einzusehen, wenn man sich vor Augen 
fiihrt, was mit Q bzw. Z Q gepruft wird 
(vgl. Kap. 6.2.1.). Zur Illustration ist 
nochmals eine Tabelle aus Kap. 6.2.1. 
gezeigt, hier jedoch erganzt um eine 
Spalte mit einer geringen Varianz der 
Eigenschaftsauspragungen : 



0 v i 


® v2 


*beo 


Y 

—max 


—min 


- 3.5 


- 1.1 


i 


0 


3 


- 2.7 


- 0.9 


0 


0 


3 


- 2.1 


- 0.8 


0 


0 


3 


- 1.6 


- 0.6 


2 


1 


2 


- 1.0 


- 0.5 


0 


1 


2 


- 0.6 


- 0.3 


1 


1 


2 


- 0.3 


- 0.1 


1 


1 


1 


0.0 


0.1 


2 


2 


1 


0.2 


0.4 


3 


2 


1 


0.7 


0.6 


1 


2 


1 


1.2 


0.8 


3 


3 


0 


+ 1.9 


+ 1.0 


2 


3 


0 


+ 2.6 


+ 1.2 


3 


3 


0 
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Die maximale und minimale Patternwahr- 
scheinlichkeit p(x max ) und p(x min ) wer- 

den bei der in Spalte 1 gezeigten grofien 
Streuung der Personenparameter weiter 
auseinanderliegen als bei der in Spalte 2 
gezeigten kleinen Streuung. 1st ini Ex- 
tremfall die Streuung gleich Null, variie- 
ren die Personeneigenschaften also gar 
nicht, so ist p(x max ) = p(x min ). Generell 

liegen bei einer kleineren Streuung der 
Personenparameter a lie Patternwahr- 
scheinlichkeiten dichter beieinander, da es 
gar nicht so extreme Antwortwahrschein- 
lichkeiten wie p vi = 0.05 oder p vi = 0.95 

gibt. 

Fur die Hohe des Q-Indexes selbst spielt 
die Intervallbreite von p(x max )bis 
p(x min ) keine Rolle, da Q gerade 

beziiglich dieses Intervalls standardisiert 
ist (vgl. (4) in Kap. 6.2.1). Anders verhalt 
es sich mit der Priifstatistik Z Q . Ist hier ein 
abweichendes Pattern wegen der geringen 
Streuung der Personenparameter gar nicht 
viel weniger wahrscheinlich, so wil'd es 
auch nicht so schnell signifikant. 

Tm Datenbeispiel hat die zweite Klasse 
eine sehr viel geringere Streuung der 
Personenparameter, namlich 

^Var(0 v2 )=O.68, 

als die erste Klasse, 

^Var(e vl ) = 1.26. 

Dies illustriert, wie wichtig es ist, bei der 
Itemselektion stets beide Kriterien zu be- 
achten, die Hohe der Q-Werte als des- 
kriptives Mafi und Zq als inferenzsta- 
tistisches Kriterium. 



6.2.3 Die Identifizierung eindi- 
mensionaler Itemgruppen 

Oft geht es bei der Testentwicklung zu- 
nachst nicht dai'um, einzelne ‘schlechte’ 
Items zu eliminieren, sondern zu priifen, 
welche Items iiberhaupt dieselbe Perso- 
neneigenschaft ansprechen. Sofern man 
dariiber Hypothesen hat, welche Item- 
gruppen zueinander heterogen sind, d.h. 
jeweils andere Personeneigenschaften an- 
sprechen, kann man die in Kapitel 5.3.2 
behandelten Modelltests anwenden. 

Sofem man derartige Hypothesen nicht hat 
(man sollte sie aber im Sinne einer 
theoriegeleiteten Testauswertung immer 
haben) oder sich diese als unzutrejfend 
erwiesen haben, benotigt man heuristische 
Verfahren (‘heuristisch’ lie i lit so viel wie 
‘suchend’), die von der Gesamtmenge aller 
Items ausgehend emiitteln, welche Items 
dieselbe latente Personeneigenschaft an- 
sprechen. 

Solche heuristischen Verfahren stecken im 
Rahmen des probabilistischen Ansatzes 
der Testtheorie noch in den Kinder- 
schuhen, wahrend sie im Rahmen der sog. 
klassischen Testtheorie, (der allgemeinen 
Mefifehlertheorie, vgl. Kap. 2.1.2 und 
6.1.1), sehr weit entwickelt sind und auch 
sehr oft angewendet werden. Dort setzt 
man das kon'elationsstatistische Modell 
der Faktorenanalyse ein, um anhand einer 
Testdatenmatrix zu emiitteln, welche 
Items jeweils dieselbe Personeneigen- 
schaft erfassen. 



Die Faktorenanalyse als Testmodell 

Die Faktorenanalyse ist ein allgemeines 
korrelationsstatistisches Modell, das die 
koirelativen Zusammenhange von metri- 
schen Variablen beschreibt. Will man es 
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auf Testdaten anwenden, um homogene 
Itemgruppen zu finden, muB man die ein- 
zelnen Itemantworten als Auspragungen 
einer metrischen Antwortvariable X vi 
auffassen. Das dadurch implizierte Test- 
modell ist durch folgende Modellglei- 
chung definiert (vgl. (5) in Kap. 3.4.2): 
h 

(1) X vi = X ajj F vj + E vi . 

j=l 

X vi bezeichnet die als metrisch aufgefaBte 
Antwortvariable von Item i, F v j ist die 
Eigenschaftsauspragung der v-ten Person 
auf der j-ten Eigenschaftsdimension, auch 
Faktor genannt, und die ay sind die zu 
schatzenden Modellparameter. Sie werden 
Faktorladungen genannt und entsprechen 
formal den Korrelationen der Antworten 
auf Item i mit dem j-ten Faktor: 

a ij = Korr(x v j,F v j). 

Sornit konnen diese Parameter auch als 
Trennscharfeparameter interpretiert wer- 
den, da sie wie r it (vgl. Kap. 6.2.1) die 
Korrelation eines Items mit der zu mes- 
senden Eigenschaft ausdrucken. Der Un- 
terschied besteht darin, daB es hier mehre- 
re solcher Eigenschaften gibt. Tatsachlich 
stellt das Modell der Faktorenanalyse die 
mehrdimensionale Verallgemeinerung des 
Modells kongenerischer Messungen dar 
(vgl. (8) in Kap. 3.1. 1.2.1). 

Zur Modellgleichung (1) gehort noch die 
Annahme der Unkorreliertheit aller Feh- 
lervariablen E vi und Faktoren F VJ , d.h. fur 

alle i und j muB gelten: 

(2) Korr(E vi ,E vi ,) = Korr(E vi ,F VJ ) 

= Korr(F v j, F v j' ) = 0. 



Damit ist die Faktorenanalyse als Testmo- 
dell bis auf eine ‘kleine’ Unbestimmtheit 
festgelegt. Diese Unbestimmtheit betrifft 
die Tatsache, daB die Testitems (als 
Punkte in einem h-dimensionalen Raum, 
h = die Anzahl der Faktoren) zwar in ihrer 
Konstellation zueinander festgelegt sind; 
jedoch fiilirt jede Drehung (Rotation) der 
Achsen dieses Raumes zu gleich guten 
Losungen (Schatzungen der ay). Da die 
Ladungen ay die Koordinatenwerte der 
Punkte (= Items) auf diesen Achsen sind, 
kann man ill re Werte nur berechnen, wenn 
man sich vorher auf eine bestimmte Lage 
der Achsen festlegt. Das wild in Form 
eines sogenannten Rotationskriteriums 
gemacht. Im folgenden Datenbeispiel wird 
das Varimax-Kriterium verwendet, das be- 
wirkt, daB jeder Faktor nur moglichst hohe 
und moglichst niedrige Ladungen aufweist 
(aber keine mittleren). 



Die Faktorenanalyse als heuristisches 
Instrument zur Identifiziemng homogener 
Itemgruppen sucht nach Gruppen von 
Items, die untereinander hoch korrelieren, 
also eine hohe Trennschdrfe erhalten, 
wenn man sie zu einem eigenen Test zu- 
sammenfaBt. 

Um dies anhand eines Datenbeispiels zu 
demonstrieren, wurden die 5 Neuro- 
tizismus-Items (s. Kap. 3.3, Einleitung) 
und die 5 Extraversions-Items aus Kapitel 
3.3.5 gemeinsam mit dem Modell der 
Faktorenanalyse analysiert. 





378 



6. Testoptimierung 



Datenbeispiel 

Die 2-Faktoren-Losu ng ergibt folgende 
Faktorladungen: 





Faktor 1 


Faktor 2 


El 


-.05 


.45 


E2 


-.01 


.10 


E3 


-.52 


.25 


E4 


.22 


.57 


E5 


-.29 


.57 


Nl 


.57 


.19 


N2 


.63 


-.02 


N3 


.67 


-.08 


N4 


.67 


-.06 


N5 


.60 


-.06 



Die 10 Items lassen sich mittels dieser 
Koordinatenwerte als Punkte in einem 2- 
dimensionalen Faktorraum darstellen: 




- 0.8 - 0.6 - 0.4 - 0.2 0 + 0,2 + 0,4 + 0,6 + 0,8 



Faklor 1 



Abbildung 156: Der zweidimensionale Faktor- 
raum der Neurotizismus- (Ni) und Extraversions- 
Items (Ei) 

Die 5 Beispielitems, die die Eigenschaft 
‘Neurotizismus’ erfassen, weisen alle eine 
hohe Trennscharfe beziiglich des hori- 
zontalen Faktors auf und nahezu Null- 
Korrelationen mit dem vertikalen Faktor. 
der horizontale Faktor kann daher als die 
Personlichkeitseigenschaft ‘Neurotizis- 
mus’ interpretiert werden. 



Die Extraversions-Items haben bezuglich 
des vertikalen Faktors mittelhohe Ladun- 
gen, aber auch fast ebenso groBe, positi- 
ve und negative Ladungen auf dem hori- 
zontalen Faktor. Diese 5 Items rnessen 
offenbar 'ilircn’ Faktor nicht so gut wie 
die 5 Neurotizismus-Items. 



Eingangs wurde gesagt, daB derartige 
heuristische Verfahrcn zur Identifizierung 
von homogenen Itemgruppen bei proba- 
bilistischen Testmodellen nicht so weit 
entwickelt sind. Dies’ trifft insbesondere 
auf quantifizieren.de Testmodelle zu. Klas- 
sifizierende Testmodelle haben dagegen 
eine sehr hohe heuristische Qualitdt, da 
sie Klassen von Personen suchen, in denen 
unterschiedliche, vorher nicht bekannte 
Itemparameter gelten. 

Klassifizierende Testmodelle konnen be- 
nutzt werden, uni Itemgruppen zu iden- 
tifizieren, die mit einem quantitativen 
Testmodell analysiert werden konnen. 
Dies klingt zunachst paradox. Gemeint ist 
damit jedoch, daB man an den 
Itemprofilen oder Erwartungswertprofilen 
von latenten Klassen (vgl. Kap. 3. 1.2.2 
oder 3.3.3) ablesen kann, welche Items 
einen parallelen oder zumindest 
iiberschneidungsfreien Verlauf ihrer 
Profilabschnitte haben, was darauf 
hinweist, daB ein quantitatives Testmodell 
auf sie paBt (vgl. Kap. 3. 1.2.3 und 
3 . 1 . 2 . 4 ). 



Datenbeispiel 

Fur die 10 Items des NEOFFI sehen die 
Erwartungswertprofile der 4-Klassenlo- 
sung des klassenspezifischen Ratingska- 
len-Modells (Kap. 3.3.4) folgendermaBen 
aus: 
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Abbildung 157: Die Erwartungswertprofile von 4 
latenten Klassen 

Es zeigt sich deutlich, daB die 4 Klassen 
Abstufungen auf der Neurotizismus-Di- 
mension darstellen (die ersten 5 Items 
erfassen diese Dimension), wahrend die 5 
Extraversions-Items in ihrcn Profilen eher 
durcheinander gehen’. Man kann hieraus 
den SehluB ziehen, daB auf die ersten 5 
Items erfolgreich ein quantitatives (eindi- 
mensionales) Testmodell angewendet wer- 
den kann. 

Dieses Ergebnis deckt sich insofern mit 
den Ergebnissen der Faktorenanalyse 
S.O.), als auch dort die Neurotizismus- 
Items das reinste Ladungsmuster, d.h. 
hohe Ladungen auf dem einen, niedrige 
Ladungen auf dem anderen Faktor auf- 
weisen. 



Homogene Itemgruppen mittels der Ana- 
lyse latenter Klassen zu bestimmen, hat 
den Nachteil, daB man relativ vide Klas- 
sen braucht, um auch alle quantitativen 
Personenunterschiede mit abzubilden. 
Dies ist bei mixed Rasch-Modellen anders, 
da quantitative Personenunterschiede hier 
innerhalb der Klassen abgebildet werden 
(vgl. Kap. 3.1.3 und 3.3.5). Das Kriterium 
paralleler Profilverldufe fur homogene 
Itemgruppen kann auch auf die Itemprofile 



eines mixed Rasch-Modells angewandt 
werden: 

Fur einen Test, der mehrere Eigenschaften 
miBt, ist zu erwarten, daB es Rasch-Klas- 
sen gibt, in denen sich die Schwierigkeits- 
parameter der Items einer homogenen 
Gruppe gleichsinnig verhalten, also z.B. 
in einer Klasse sehr hoch, in einer anderen 
eher niedrig sind. Verlaufen die Profile 
der Itemparameter einer Itemgruppe zu- 
dem parallel, so laBt sich auf diese Item- 
gruppe ein eindimensionales Rasch-Mo- 
dell anwenden. 



Datenbeispiel 

Fur die 10 Neurotizismus- und Extraver- 
sions-Items des NEOFFI ergeben sich fol- 
gende Profile der Itemschwierigkeiten der 
Z-Klassenlosung des mixed Ratingskalen- 
Modells (vgl. Kap. 3.3.5., Gleichung (7)): 



1.5 




- 1,5 

-2 



Abbildung 158: Die Profile der Itemparameter der 
!-Klassenlosung des mixed Ratingskalen-Modells 

In der Klasse mit dem gestrichelten Proftl 
sind alle Neurotizismus-Items schwerer als 
n der Klasse mit der durchgezogenen Pro- 
fillinie, wahrend das fiir die Extraversions- 
Items umgekehrt ist. Die beiden latenten 
Klassen trennen Personen mit hohen N- 
aber niedrigen E-Werten von Personen mit 
niedrigen N- und hohen E-Werten. 

Die Profilabschnitte verlaufen fiir die N- 
Items nahezu parallel, was darauf hin- 
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weist, daB diese 5 Items homogener sind 
und ihre Eigenschaftsdimension besser 
messen als die 5 E-Items. Das deckt sich 
mit den Resultaten der Faktorenanalyse 
und der Klassenanalyse (s.o.). 



Die Rechenbeispiele zeigen, daB sich mit 
klassifizierenden Testmodellen auch Item- 
gruppen identifizieren lassen, die im Sinne 
eines eindimensionalen quantitativen Test- 
modells homogen sind. Verglichen mit der 
Faktorenanalyse ist dieses Verfahren 
etwas ‘schwerfalliger', zumal keine sehr 
grofien Itemmengen auf diese Weise 
‘sortiert’ werden konnen. 

Die Vorteile liegen darin, daB man mit 
diesen Verfahren im Rahmen des pro- 
babilitistischen Ansatzes der Testtheorie 
bleibt und man nicht die Annahmen iiber 
die Datenqualitdt und das Modell iiber 
das Antwortverhalten zwischen den 
Analyseschritten wechseln muB. Weiterhin 
sind Modellvergleiche zwischen den 
klassifizierenden und den 

quantifizierenden Modellen moglich (vgl. 
Kap. 5.1), urn die Frage der 
Eindimensionalitat einer Itemgruppe zu 
beantworten. SchlieBlich zwingt die 
Begrenzung auf eine geringere Itemanzahl 
ZU einer Hypothesenbildung iiber 
moglicherweise homogene Itemgruppen 
und sornit zu einer theoriegeleiteten Test- 
auswertung. 



Literatur 

Die Methoden der Itemselektion im Rah- 
men der MeBfehlertheorie stellen Lienert 
& Raatz (1994) dar. Moosbrugger & 
Zistler (1994) gehen auf spezielle Pro- 
blerne der Trennscharfe als Item-Test- 
Korrelation ein. Der Q-Index wild von 
Rost & v. Davier (1994) behandelt, Item- 
fit-MaBe, die auf Itemresiduen beruhen. 



von Andrich & Kline (1981) und Wright 
& Masters (1982). Reise (1990) geht auf 
Itemfit-MaBe ein, die auf der Likelihood 
des Itemvektors beruhen. Die Priifung der 
Unterschiedliclikeit der Itemparameter in 
zwei Teilstichproben geht auf Fischer & 
Scheiblechner ( 1970) zuriick. Der Diskri- 
minationsindex bei klassifizierenden Mo- 
dellen wird auch bei Clusteranalysen 
verwendet (s. z.B. Spath 1983). StrauB 
(1995) vergleichen die Faktorenanalyse 
und das mixed Rasch-Modell hinsichtlich 
der Identifiziemng homogener Itemgrup- 
pen. 



Ubungsaufgaben 

1. Berechnen Sie mit WINMIRA, wie 
sich die Reliabilitat der 5 Neurotizis- 
mus-Items verandert, wenn man das 
nach dem Q-Index trennscharfste Item 
weglaBt, und wie, wenn man das trenn- 
schwachste eliminiert. In welchem Fall 
ist die Varianz der Personenparameter 
groGer? 

2. Untersuchen Sie mit WINMIRA, wel- 
che der 5 Extraversions-Items beson- 
ders gut und welche besonders schlecht 
zwischen den Klassen des Klassenmo- 
dells fur ordinale Daten diskriminieren. 
Vergleichen Sie die Ergebnisse beziig- 
hch der 2- und der 3-Klassenlosung. 
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6.3 Optimierung durch Per- 
sonenselektion 

Von einem formalen Standpunkt aus be- 
trachtet, besteht in der Testtheorie eine 
weitgehende Symmetric zwischen Items 
und Personen, so auch bei der Frage nach 
der Modellgiiltigkeit eines Testmodells fiir 
eine gegebene Datenmatrix. Die Modell- 
giiltigkeit kann dadurch eingeschrankt 
sein, dab abweichende Spaltenvektoren 
(= Items) oder abweichende Zeilenvekto- 
ren (= Personen) in der Datenmatrix 
enthalten sind. Deren Eliminierung kann 
die Modellanpassung erhohen. 

Von einem Wissenschafts-ethischen Stand- 
punkt aus betrachtet, gibt es jedoch eine 
Asymmetrie in dieser Frage. Wahrend die 
Selektion von Items als legitim gilt, 
schlieBlich sind sie von Menschenhand ge- 
macht und konnen mit alien Fehlern be- 
haftet sein, die eine Eliminierung rechtfer- 
tigen, gilt die Eliminierung unpassender 
Personen aus der Datenmatrix als illegi- 
tim. Es liegt der Argwohn der Datenma- 
nipulation nahe, wenn man von einer 
Stichprobe von Beobachtungen, das sind 
in diesem Fall die Testprotokolle, einfach 
einem Teil weglaBt, uni die Ergebnisse zu 
‘verschonern 

Auch vom Ziel einer Testanalyse her 
betrachtet gibt es diese Asymmetrie, denn 
das Ziel besteht im allgemeinen darin, den 
Test zu verbessern. Das Testinstrument 
selbst verandert sich aber nur durch Item- 
Selektion, nicht durch Personenselektion. 

Trotzdem gibt es einige gute Griinde, 
weswegen man sich auch um abweichende 
Personen oder Personengruppen ktimmem 
sollte. 



Erstens muB ein Test nicht unbedingt be- 
anspruchen, bei alien Personen eine 
Eigenschaft zu messen. Es kann durchaus 
sein, daB einige Personen von der zu mes- 
senden Eigenschaft gar keinen definierten 
Auspragungsgrad haben. 

Zweitens kann es einen diagnostischen 
Wert haben, Personen mit einem abwei- 
chenden Antwortmuster zu identifizieren. 
Das Ziel einer solchen Analyse besteht 
dann nicht darin, diese Personen aus den 
Ergebnissen herauszunehmen, sondern die 
Tatsache eines abweichenden Antwort- 
musters selbst stellt das Testergebnis fiir 
diese Person dar. So konnen z.B. Per- 
sonen, die in einem Einstellungsfragebo- 
gen nicht das aufgrund ill res Summen- 
scores zu erwartende Muster von Zustim- 
mung und Ablehnung zeigen, gerade die- 
jenigen mit einer besonders interessanten 
Einstellungsstruktur sein. 

Drittens haben Test- und Fragebogenda- 
ten, die unter ‘natiirlichen Bedingungen’ 
erhoben werden (im Gegensatz zu experi- 
mentellen Labordaten) einen hohen Grad 
an bearbeitungsbedingter ‘Verwasserung’. 
Damit ist gemeint, daB ein gewisser 
Prozentsatz an Personen infolge fehlender 
Testmotivation, verfalschender Absicht, 
mangelnder Konzentration usw. uberpro- 
portional stark zum Mefifehler des Test 
beitragen. Bevor man hier wertvolle Items 
eliminiert oder brauchbare Testmodelle 
verwirft, ist es sinnvoller, unbrauchbare 
Testprotokolle als solche zu erkennen und 
von weiteren Analysen auszuschlieBen. 

Viertens trifft allzuoft das Argument, daB 
die Personen eine Zufallsstichprobe aus 
einer definierten Population darstellen, 
welche man im Nachhinein nicht ver- 
andern darf, gar nicht zu. Vielmehr sind 
die meisten vetfiigbaren Testdaten an stark 
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vorselegierten Personengruppen, wie 
Patienten, Kursteilnehmern, Stellenbewer- 
bem oder Schiilem gewonnen worden. Die 
‘Unantastbarkeit’ einer Zufallsstichprobe 
diiifte hier nicht gegeben sein. 

Schliefilich kann man durch die Analyse 
abweichender Antwortmuster selir wohl 
auch zur Optimierung des Testinstru- 
mentes selbst beitragen, sei es dadurch, 
dab die abweichenden Antwortmuster 
Hinweise geben, wie die Formulierung 
oder Reihenfolge der Items verbessert 
werden kann, sei es dadurch, dab man 
erfahrt, filr welche Personen der Test 
ungeeignet ist. 

In Kapitel 6.3.1 wird zunachst die Iden- 
tifizierung einzelner abweichender Ant- 
wortmuster behandelt. Dieses Vorgehen 
der Begutachtung einzelner Antwort- 
muster ist in zweierlei Hinsicht pro- 
blematisch. Zum einen mub es bei 
probabilistischem Antwortverhalten immer 
einzelne Antwortpattern geben, die nur 
eine sehr geringe Wahrscheinlichkeit 
haben und sornit ‘abweichend' sind. Von 
einem einzelnen Pattern labt sich daher 
kaum sagen, ob es zu ‘unwahrscheinlich’ 
ist. Zum anderen werden die Modell- 
parameter meistens (aber nicht notwen- 
digerweise) unter Einschlufi all jener 
Pattern geschatzt, die man spater als nicht- 
modellkonform identifiziert. Dies’ stellt ein 
auswertungslogisches Problem dar. 

Kapitel 6.3.2 behandelt die in dieser 
Hinsicht eleganteren Methoden, ganze 
Personengruppen mit untypischem Ant- 
wortverhalten zu identifizieren. 



6.3.1 Abweichende Antwort- 
muster 

Nimmt man die Geltung eines bestimmten 
Testmodells fur einen Datensatz an und 
hat man die Parameter dieses Modells ge- 
schatzt, so hat jedes aufgetretene Antwort- 
muster einer Person eine mehr oder weni- 
ger hohe Wahrscheinlichkeit in diesem 
Modell. Antwortmuster, fur die diese 
Wahrscheinlichkeit sehr gering ist, be- 
zeichnet man als (vom Modell) abwei- 
chend (engl. : ‘deviant’ oder ‘aberrant’). 

In Kapitel 6.2.1 wurde zum Zweck der 
Itemselektion ein Itemfit-Mafi dargestellt, 
das auf der Wahrscheinlichkeit eines 
Spaltenvektors der Datenmatrix beruht, 
der Q-Index. Dasselbe Mab kann auch als 
Personenfit-Mab verwendet werden, wenn 
man es fur die Wahrscheinlichkeit eines 
Zeilenvektors umdefiniert. Mit p(x beo ) 

wird daher in diesem Kapitel die Wahr- 
scheinlichkeit des beobachteten Antwort- 
musters einer Person v unter der Bedin- 
gung ihres Summenscores r v bezeichnet : 

(1) p(x b co) = pUv| r v) 

Bei Rasch-Modellen ist diese bedingte 
Patternwahrscheinlichkeit allein eine 
Funktion der Itemparameter und nicht des 
Personenparameters der Person (s. Glei- 
chung (13) in Kap. 3.1. 1.2.2). 

Diese Wahrscheinlichkeit wird maximal, 
wenn das Antwortmuster dem sog. Gutt- 
man-Pattern (vgl. Kap. 3. 1.1. 1.1) ent- 
spricht, d.h. genau die r leichtesten Items 
eine 1-Antwort aufweisen. Sie wird mini- 
mal, wenn genau die r schwierigsten Items 
die l-Antwort zeigen (was man auch als 
‘Anti-Guttman-Pattern’ bezeichnen kann). 
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Der Personenfit-Index Q v setzt analog 
zum Itemfit-Index Q die Wahrscheinlich- 
keit des beobachteten Patterns zur maxi- 
malen, p(x max )> und zur niinimalen Pat- 
tern wahrschein I ichkeit, p(x min ^, in Bezie- 

hung (vgl. Kap. 6.2.1). Fur den Fall von 5 
Items, die nach aufsteigender Schwie- 
rigkeit geordnet sind, sehen die beteiligten 
Pattern z.B. wie folgt aus: 



a i 


-1.17 


-0.69 


0.04 


0.70 


1.12 


— beo 


1 


0 


1 


1 


0 


Zmax 


1 


1 


1 


0 


0 


— min 


0 


0 


1 


1 


1 



sind. Auf die Verallgemeinemng dieses 
Indexes fur ordinale Daten wird weiter 
unten eingegangen. 

Der Index variiert zwischen 0 und 1, 
wobei 

0 anzeigt, dab die Person ein ‘perfektes’ 
Guttman-Pattern produziert hat, 

- eine 1 anzeigt, dab sie gerade die 

schwersten Items gelost hat (und daher 
vom Modell abweicht), und 

- ein Wert von 0.5 ein vollig zufalliges 

Antwortverhalten anzeigt. 



Der Personenfit-Index Q v ist folgender- 
maben definiert (vgl. (4) in Kap. 6.2.1): 



( 2 ) 



P 


(—beo) 


log - j 
pl 


t— max/ 


P 1 


(—min ) 



und reduziert sich nach dem Einsetzen 
der bedingten Pattemwahrscheinlichkeiten 
(vgl. (13) in Kap. 3. 1.1. 2.2): 



exp 

p(x| r ) = 

(3) £ ex P 



f k A 

“X x i CT i 

V i-l 



' k 

-X x i°i 

V i=l 



zu dem ‘einfacheren’ Ausdruck 



k r 

-X x i°i + X a i 

(4) Qv = ^J - r 

- I + x 

i=k-r+l i=l 



der wegen der verkurzten Sehrcibweise 
allerdings voraussetzt, dab die Items nach 
aufsteigender Schwierigkeit numeriert 



Ublicherweise variieren empirische Q v - 
Werte zwischen 0.1 und 0.5. Sie konnen 
ebenso wie die Itemfit-Mabe Q, in stan- 
dard-normal-verteilte Priifgroben Zq v 

transfomiiert werden (vgl. Kap. 6.2.1). 
Auch hier zeigt dann z.B. ein Z-Wert, der 
grober als +1.96 ist, an, dab die Person 
mit 95%-iger Wahrsehcinliclikeit einen zu 
schlechten Modellfit hat (‘Underfit'), 
wall rend ein signifikant negativer Z-Wert 
(Z< -1.96) eine zu gate Modellanpassung 
(‘Overfit’) anzeigt (vgl. Kap 6.2.1). 



Datenbeispiel 

Bei den KFT-Daten, ergeben sich nur 2 
abweichende Antwortmuster, wenn man 
einen kritischen Z-Wert von Z = 3.0 
zugrundelegt. Diese Signifikanzgrenze 
entspricht einem Wahrsehcinliehkeitsni- 
veau von p = 0.0026, dab man ein Pat- 
tern zu unrecht als abweichend einstuft. 
Die hohe Signifikanzgrenze soli der Tat- 
sache Rechnung tragen, dab man bei 300 
Personen 300-mal die Signifikanzprii- 
fung vomimmt und daher bei einem Sig- 
nifikanzniveau von p = 1/300 = 0.0033 
schon ein abweichendes Pattern zu er- 
warten ist. 
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Die beiden signifikanten Antwortpattem, 
die jeweils nur einmal aufgetreten sind, 
lauten 

x v =00 1 1 1 ,Q V = 1.0, 
und x w ~ ® 0 0 11 ,Q W = 1.0. 

Es handelt sich in beiden Fallen um per- 
fekte Anti-Guttman-Pattern. 

Die folgende Tabelle gibt die Hau- 
figkeiten n(Q) der in Intervalle zusam- 
mengefabten Q-Werte wieder: 



Qv 


n(Q) 


0 - 0.1 


197 


0.1 -0.2 


20 


0.2-0.3 


18 


0.3-0.4 


7 


0.4-0. 5 


19 


0.5-0.6 


15 


0.6-0.7 


2 


0.7-0. 8 


4 


0.8-0. 9 


4 


0.9-.99 


0 


1.0 


14 



Beachtenswert an der Beispielrechnung ist 
die Tatsache, dab die beiden anderen Anti- 
Guttman-Pattern, 0 0 0 0 1 und 0 1111, 
auch aufgetreten sind, und zwar sogar 4- 
mal bzw. 8-mal (vgl. Kap 3.1), jedoch an 
demselben Signifikanzniveau nicht signifi- 
kant werden. 

Auch sie haben einen Q v -Wert von 1.0, 
jedoch ist die Varianz der unter Modell- 
geltung errechneten Patternwahrschein- 
lichkeiten der jeweils 5 moglichen Pattern 
mit Score r = 1 oder r = 4 zu grob, als dab 
eine einzige ‘falsche’ Itemantwort (eine ‘1’ 
beirn letzten statt beim ersten Item) einen 
signifikanten Z-Wert bewirken konnte. 



Die Power oder Teststarke (vgl. Kap. 
6.2.2) der Z-Statistik ist von der Anzahl 
der Items und der Varianz der Item- 
parameter abhangig: Ein abweichendes 
Antwortpattem, wird umso eher signifi- 
kant, je longer der Test und je grofier die 
Varianz der Itemschwierigkeiten ist. Inso- 
fem sind die genannten Resultate des nur 
5 Items umfassenden Datenbeispiels nicht 
aussagekraftig fiir langere Tests, bei denen 
im allgemeinen Q v -Werte iiber 0.5 auch 
signifikant werden. 

Gleichung (4) beschreibt den Q v -Index fiir 
dichotome Itemantworten. Seine Verallge- 
meinerung fiir ordinale Itemantworten ist 
leicht mbglich, er lautet dann: 

£-<&° + £ag“ 

(5) Qv =i r X • 

I-C + SC 

i=l i=l 

wenn man das unrestringierte Rasch-Mo- 
dell fiir ordinale Daten zugrundelegt. Die 
Itemparameter a|jf°, a™ ax und O;^' n sind 

die kumulierten Schwellenparameter der- 
jenigen Kategorie x, die bei dem jewei- 
ligen Pattern (beo, max oder min) bei Item 
i auftritt. Das heibt, man mub zur Be- 
rechnung von Q v die beiden Antwort- 
rnuster mit maximaler und minimaler 
Walirsehcinliehkeit kennen. Diese zu er- 
mitteln ist deswegen schwieriger als bei 
dem analogen Itemfit-Mab Q„ weil hier 
die Patternwahrscheinlichkeiten unter der 
Bedingung des Summenscores der Person, 
r v , gesucht sind: 

p(— maxi r v ) und p(li m in| r v)- 

Der Summenscore r v gibt aber lediglich 
an, wieviele Schwellen eine Person im 
gesamten Test iiberschritten hat, und nicht 
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wie oft die Kategorien 0, 1, 2 . . . bis m 
aufgetreten sind. 

Die Ermittlung der perfekten Guttman- 
Pattern oder auch der ‘Anti-Guttman- 
Pattern’ ist bei ordinalen Daten daher 
nicht einfach dadurch moglich, dab man 
die Items nach ihrcr Schwierigkeit ordnet 
und eine ‘gestaffelte’ Dreiecksmatrix her- 
stellt (vgl. Kap. 3.1. 1.1.1), etwa der Art: 



0 


0 


0 


0 


1 


0 


0 


0 


1 


1 


0 


0 


2 


1 


0 


0 


2 


1 


1 


0 


2 


2 


1 


0 


3 


2 


1 


0 


3 


2 


1 


1 


3 


2 


2 


1 


3 


3 


2 


1 


3 


3 


2 


2 


3 


3 


3 


2 


3 


3 


3 


3 



Wenn sich die Schwellendistanzen zwi- 
schen den Items unterscheiden, konnen 
sich sogar drastische Verletzungen einer 
wohlgeordneten Dreieckstmktur ergeben, 
wie das folgende Beispiel zeigt. 



Guttman- und Anti-Guttman-Pattern 
bei ordinalen Daten 

Fur das Datenbeispiel der NEOFFI-Items 
ergeben sich die folgenden Antwortpat- 
tern mit maximaler bzw. minimaler 
Wahrscheinlichkeit unter der Bedingung 
eines gegebenen Summenscores r: 



Gutman Anti-Guttman 







-max 






r 




—min 


0 


0 


0 


0 


0 




0 




0 


0 


0 


0 


0 


0 


0 


0 


1 


0 




1 




0 


0 


0 


0 


1 


1 


0 


0 


1 


0 




2 




0 


0 


0 


0 


2 


1 


0 


1 


1 


0 




3 




0 


0 


0 


0 


3 


1 


1 


1 


1 


0 




4 




0 


1 


0 


0 


3 


1 


1 


1 


1 


1 




5 




0 


0 


3 


0 


2 


1 


1 


1 


2 


1 




6 




0 


0 


3 


0 


3 


2 


1 


1 


2 


1 




7 




0 


1 


3 


0 


3 


2 


2 


1 


2 


1 




8 




0 


2 


3 


0 


3 


2 


2 


2 


2 


1 




9 




0 


3 


3 


0 


3 


2 


2 


2 


2 


2 




10 




1 


3 


3 


0 


3 


2 


3 


2 


2 


2 




11 




3 


2 


3 


0 


3 


3 


3 


2 


2 


2 




12 




3 


3 


3 


0 


3 


3 


3 


2 


3 


2 




13 




1 


3 


3 


3 


3 


3 


3 


2 


3 


3 




14 




3 


2 


3 


3 


3 


3 


3 


3 


3 


3 




15 




3 


3 


3 


3 


3 



Auch wenn man die Items nach abstei- 
gendem Summenscore ordnet, ergibt sich 
keine Dreieckstmktur. Nicht einmal auf- 
steigende Kategoriennummem innerhalb 
einer Spalte sind notwendig, wie sich an 
me lire re n Stellen der Pattern mit mini- 
maler Wahrscheinlichkeit zeigt. 

Auch wenn diese extrem wahrscheinlichen 
oder unwahrsehcinliehcn Antwortmuster 
weniger 'regel maRig’ aussehen als im 
dichotomen Fall, sind sie eindeutig defi- 
niert und, sofern die Schwellenparameter 
aller Items bekannt sind, mit einem ent- 
sprechenden Algorithmus identifizierbar: 
die Summe der Schwierigkeitsparameter 
aller r iiberschrittenen Schwellen muB 
minimal bzw. maximal sein. Dies sind 
auch gleichzeitig die Summen, die zur Be- 
rechnung von Q v anhand von Gleichung 
(5) benotigt werden. 
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Datenbeispiel 

Bei den 1000 befragten Personen im 
NEOFFI-Beispiel ergibt sich folgende 
Haufigkeitsverteilung der Q v -Werte: 



Qv 


n( O ) 


0 .- 0.1 


649 


0. 1-0.2 


178 


0.2-0.3 


87 


0.3-0.4 


42 


0.4-0.5 


18 


0.5-0.6 


9 


0.6-0.7 


4 


0.7-0.8 


3 


0.8-0.9 


1 


0.9-0.99 


6 


1.0 


3 



Davon haben 39 Pattern einen Z-Wert, 
der groBer als 3.0 ist. Da die Wahr- 
scheinlichkeit, diese Signifikanzgrenze 
‘per ZufalF zu uberschreiten, etwa 1/4 
Prozent betragt (s.o.), sind 39 Personen 
eine betrachtliche Anzahl. 



Abweichende Antwortmuster mittels eines 
Personenfit-MaBes zu identifizieren, ist 
nur bei quantifizierenden Testmodellen 
iiblich, auch wenn es prinzipiell moglich 
ist, den Q v -Index fur klassifizierende Test- 
modelle zu definieren. Bei letzteren arbei- 
tet man jedoch ohnedies mit bedingten 
Pattemwahrscheinlichkeiten, namlich den 
p(x v |g), die mit Hilfe des Satzes von 
Bayes in Zuordnungswahrscheinlichkeiten 
p(g|x v ) transfonniert werden (vgl. Kap. 
3. 1.2.2). 

In Kapitel 6.1.4 wurden diese Zuord- 
nungswahrscheinlichkeiten als Indikator 
fur die Mefigenauigkeit benutzt. Sie sind 
ebenso ein Indikator fiir abweichende 
Antwortmuster, denn bei klassifizierenden 
Testmodellen gilt ein Antwortmuster dann 



als abweichend, wenn es in keine Klasse 
so recht paBt. Mochte man bei einem 
klassifizierenden Testmodell Personen mit 
untypischem Antwortmuster herausfiltem, 
so wiirde man solche Personen nehmen, 
deren Zuordnu ngswalirsehcinliehkeiten in 
etwa den KlassengroBenparametern ent- 
sprechen: 

P(g|x v ) = 7l g . 

In diesem Fall ist das Antwortmuster x v 
fiir keine Klasse typisch. 

6.3.2 Unskalierbare Personen- 
gruppen 

Im vorangehenden Kapitel wurden zwei 
Datenbeispiele gezeigt, bei denen einmal 2 
von 300 Personen und einmal 39 von 1000 
Personen ein ‘ significant’ abweichendes 
Antwortverhalten aufweisen. Wahrend 
diese Zahl im ersten Fall Vernachlassigbar 
klein ist, handelt es sich im zweiten Fall 
um eine recht groBe Gruppe von abwei- 
chenden Personen. 

Ob es iiberhaupt eine separierbare Gruppe 
von Personen mit abweichendem Ant- 
wortverhalten gibt und wie grofi diese 
Gruppe ist, liiBt sich mit einem klassifzie- 
renden Testmodell ‘eleganter’ klaren. Der 
Vorteil dieser Methode der Personen- 
selektion besteht darin, daB man nicht im 
Nachhinein Antwortmuster als ‘abwei- 
chend' deklariert, die man zuvor noch zur 
Schatzung der Modcllparamcter herange- 
zogen hat. 

Ein Nachteil besteht darin, daB man mit 
dieser Methode alle abweichenden Pattern 
in einer Klasse zusammenfaBt, in welcher 
ein bestimmtes Wahrscheinlichkeitsmodell 
die Daten beschreibt. Damit ist gemeint, 
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daB fiir jede latente Klasse, also auch fiir 
eine Klasse von Unskalierbaren, Modell- 
parameter geschatzt werden miissen und 
diese Parameter eine bestimmte Wahr- 
scheinlichkeitsverteilung der Itemantwor- 
ten vorsehrcihen. Es stellt sich die Frage, 
ob es ein Widerspruch in sich ist, eine be- 
stimmte Wahrscheinlichkeitsverteilung fiir 
‘unskalierbare’ Itemantworten festzulegen. 

Das haufigste Modell fiir eine Klasse von 
Unskalierbaren besteht darin, eine Gleich- 
verteilung aller Itemantworten anzuneh- 
men. Dahinter steht die Vorstellung, daB 
unskalierbare Personen wahllos Antworten 
geben, und somit jede von m + 1 mog- 
lichen Antwortalternativen gleich oft ge- 
wahlt und durch die Wahrscheinlichkeit 

p( X vi=x) = -^r fUr x e{0,l,2...m} 
beschrieben wird. 



Datenbeispiel 

Die Items als KFT werden durch die 2- 
Klassenlbsung der Klassenanalyse recht 
gut beschrieben, wenn auch die 2- 
Klassenlbsung des mixed Rasch-Modells 
besser paBt (s. Kap. 5.1.2). 

Bei der Beriicksichtigung einer Klasse 
von Unskalierbaren geht es um die Ein- 
fiihrung einer dritten Klasse, in der die 
Losungswahrscheinlichkeiten auf einen 
bestimmten Wert fixiert werden. Soil es 
sich hierbei um eine Klasse von ‘Ratern’ 
handeln, also Personen, die die richtige 
Antwort ohne Ansehen der Ant- 
wortalternativen ‘erraten’, so waren 
die Losungswahrscheinlichkeiten auf 
p(X vi = 1) = 0.2 zu fixieren, da der KFT 
5 Altemativen anbietet, von denen genau 
eine richtig ist. Die Ergebnisse einer 
solchen Berechnung sind jedoch eher 



verwirrend, da diese Rateklasse sehr 
groB wird (sie nimmt einen GroBteil der 
leistungsschwachen Schuler auf), der An- 
stieg der Likelihood gegeniiber der 2- 
Klassenlbsung aber fast gleich Null ist. 

Tm folgenden sind daher die Ergebnisse 
dargestellt, bei denen die Ldsungswalir- 
scheinliclikeiten der dritten Klasse auf 
p(X vi = 1) = 0.5 fixiert sind. Die Per- 
sonen in dieser Klasse sollen also nicht 
deswegen unskalierbar sein, weil sie die 
richtige Losung per Zufall erraten, son- 
dem weil sie alle Items mit einer mitt- 
leren Wahrscheinlichkeit losen. Dies 
kann z.B. das Resultat einer eher spo- 
radischen Aufmerksamkeitszuwendung 
sein. 

Die geschatzten Lbsu n gs wall rse hcinlich- 
keiten der ersten beiden Klassen lauten: 



i 


1 


2 


3 


4 


5 


"il 


0.91 


0.95 


0.75 


0.67 


0.48 


n i2 


0.36 


0.17 


0.16 


0.03 


0.10 



und sind denen der 2-Klassenlbsung sehr 
ahnlich. 

Die KlassengroBenparameter dieser 
beiden Klassen betragen Jtj = 0.51 und 
ft 2 = 0.44, so daB die dritte Klasse einen 
Parameter von 713 = 0.05 hat. Das bedeu- 
tet, daB 5% der 300 Personen in diese 
Klasse der Unskalierbaren gehoren. 



Nimmt man anhand der maximalen 
Zuordnungswahrscheinlichkeiten eine ma- 
nifeste Zuordnung jeder Person zu ihrcr 
‘wahrscheinlichsten’ Klasse vor, so ent- 
fallen in die dritte Klasse nur 3 Personen. 
Eine solche Diskrepanz zwischen der 
GroBe der latenten und der manifesten 
Klasse kann es geben, da der Klassengro- 
Benparameter tl. die Summe der Anteile 
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jeder Person an einer Klasse g darste lit, 
wahrend nur solche Personen manifest in 
Klasse g gelangen, deren Zuordnungs- 
walirsehcinliclikeit fiir diese Klasse am 
grdfiten ist. 

Bezeichnenderweise handelt es sich bei 
den Personen in dieser dritten Klasse urn 
die beiden mittels des Q v -Index als ‘sig- 
nifikant abweichend' ermittelten Personen 
mit den Pattern 0 0 0 1 1 und 0 0 111 
(vgl. Kap. 6.3.1), sowie eine weitere 
Person mit dem Pattern 0 0 110. 

Die Frage, ob es sinnvoll ist, eine solche 
dritte Klasse vorzusehen, laBt sich mit 
einem Modellvergleich zwischen der 2- 
Klassen- und dieser 3-Klassenlosung be- 
antworten (vgl. Kap. 5.1). Die folgende 
Tabelle zeigt die entsprechenden Priif- 
groGen: 





log L 


AIC 


2 Klassen 


-850.55 


1723.1 


2 Klassen + 
1 50%-Klasse 


-850.18 


1724.36 



Nach dem AIC-Kriterium paBt das 2-Klas- 
Sen-Modell besser. Auch der Likelihood- 
quotiententest zwischen beiden Modellen 
ergibt mit einem empirischen / 2 -Wert von 
0.74 bei 1 Freiheitsgrad, daB die dritte 
Klasse, fiir die nur ein zusatzlicher (Klas- 
sengroBen-)parameter zu sehatzen ist, kei- 
ne signifikant bessere Modellgeltung be- 
wirkt. 

Eine mbgliche Klasse von Unskalierbaren 
derart zu restringieren, daB nur noch ihr 
KlassengroBenparameter zu sehatzen ist, 
ist zwar sehr sparsam, laBt aber dieser 
Klasse wenig Spielraum als Sammel- 
becken fiir Personen mit abweichendem 
Antwortverhalten. Abweichendes Ant- 



wortverhalten kann auch dadurch zustan- 
dekommen, daB Personen aus Unter- 
forderung nur die schwersten Items losen, 
aus Ermiidung nur die ersten oder ill re 
Kreuze nach einem bestimmten Muster 
auf dem Antwortbogen verteilen. 

Die Alternative zu einer stark restringier- 
ten Klasse von ‘Unskalierbaren' besteht in 
einer eherflexibien Klasse, die mit vielen 
zu schatzenden Parameter!! auch abwei- 
chende Antwortverteilungen beschrciben 
kann. Konkret heiBt das, eine unrestrin- 
gierte latente Klasse fiir abweichende 
Antwortmuster vorzusehen oder, im Falle 
von mixed Rasch-Modellen gar eine un- 
restringierte Klasse, in der das Rasch- 
Modell gilt. 

Bei diesem Vorgehen, also dem Verzicht 
auf Restriktionen fiir die Unskalierbaren, 
stellt sich die Frage, woran man erkennt, 
daB eine latente Klasse ein Sammelbecken 
fiir abweichendes Antwortverhalten dar- 
stellt. Hierfiir gibt es vier Kritericn, die als 
Heuristik zur Identifikation einer Klasse 
von Unskalierbaren verwendetet werden 
konnen: 

- Erstens, sollten die Itemparameter in 

einer solchen Klasse eine geringere Va- 
rianz haben als in der (den) anderen 
Klasse(n) und moglicherweise auch 
eine andere Ordnung als die Item- 
scores in der Gesamtpopulation. 

- Zweitens, sollten bei mehrkategoriel- 

len, ordinalen Itemantworten die 
Schwellen nicht geordnet sein, da 
geordnete Schwellenparameter darauf 
hinweisen, daB die zu messende Eigen- 
schaft die Benutzung der Antwortskala 
steuert. 
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- Drittens, sollte die Variant der Perso- 

nenparameter eingeschrankt sein, da 
eine groBe Personenvarianz darau f hin- 
deutet, daB die Itemantworten von 
einer gemeinsamen Eigenschaftsdimen- 
sion abhangen (die Personen also ‘ska- 
lierbar’ sind). 

- Viertens, sollte das klassenspezifisch 

berechnete Itemfit-Mafi in einer 
Klasse von Unskalierbaren hohe Werte 
annehmen, also schlecht passende 
Items anzeigen, die aber dennoch 
nicht-signifikant sind, da die Power 
wegen der geringen Personenvarianz 
nicht ausreicht (vgl. Kap. 6.2.2). 

Hinsichtlich dieses Vorgehens zur Identi- 
fiziemng von Personengruppen mit abwei- 
chendem Antwortverhalten liegen bislang 
nur wenige Erfahrungen vor. So ist z.B. 
noch unklar, inwieweit man eine vor- 
handene Klasse von Unskalierbaren in 
ihrer GroBe tiberschatzt, da stets auch ein 
gewisser Anteil der Antwortmuster der 
skalierbaren Population dieser Klasse zu- 
geordnet wird. 



Literatur 

Die Identifizierung abweichenden Ant- 
wortverhaltens wird als ‘appropriateness 
measurement’ von Drasgow et al (1987), 
Levine & Drasgow (1982, 1988), als 
Anwendung von ‘caution indices' von 
Tatsuoka & Linn (1983), Reise & Due 
(1991) und als Untersuchung des ‘person 
fit’ von Molenaar & Hoijtink (1990) und 
Trabin & Weiss (1983) behandelt. Tamai 
& Rost (1990) haben den Q-Index als 
Personen 11 t-MaB diskutiert. 

Auf Literatur zur Identifikation von unska- 
lierbaren Personengruppen bei Klassenmo- 
dellen wurde in den betreffenden Unter- 
kapiteln von Kapitel 3.1.2 verwiesen. Ein 



Beispiel fur die Identifizierung einer Klas- 
se von Unskalierbaren mit dem mixed 
Rasch-Modell geben Rost & Georg 
(1991). 



Ubungsaufgabe 

Priifen Sie mit WINMIRA, ob man die 
Gultigkeit des ordinalen Rasch-Modells 
fur die 5 Extraversions-Items des NEOLLI 
(s. Kap. 3.3.5) erhohen kann, indem man 
Personen mit untypischem Antwortver- 
halten aus dem Datensatz herausnimmt. 
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6.4 Optimierung der exter- 6.4.1 Die Berechnung der 
nen Validitat externen Validitat 



Der Nachweis, daB ein bestimmtes, theo- 
retisch plausibles Testmodell auf die Test- 
daten paBt, ist bereits ein Nachweis von 
Giiltigkeit des Tests, also von Validitat. In 
Kapitel 2.1.1 wurde dieser Aspekt von 
Validitat als interne Validitat eingefiihrt. 
Die in den beiden vorangehenden Kapiteln 
diskutierten Verfahrcn der Optimierung 
durch Item- und Personenselektion opti- 
rnieren die interne Validitat, da sie die 
Geltung eines Testmodells fur die Test- 
daten erhohen. 



Eine saloppe, aber zutreffende Aussage 
zur Bestimmung externer Validitat besagt: 

Ein Test hat so viele Validitdten wie 
es V aliditdtskriterien gibt. 

Diese Aussage zielt darauf ab, daB die ex- 
terne Validitat nicht ein Gutekriterium des 
Tests selbst ist, das durch eine einzelne 
Zahl ausgedruckt werden kann, sondem 
stets ein Merkmal des Tests in bezug auf 
eine bestimmte AuBenvaiiable, ein Validi- 
tdtskriterium (s. Kap. 2.1.1). 



In diesem Kapitel geht es urn die externe 
Validitat, ein Gutekriterium, das stets die 
Existenz einer extemen, also ‘testfremden’ 
Variable voraussetzt. Wie man die externe 
Validitat eines Tests berechnet, wird irn 
Kapitel 6.4.1 dargestellt. 

Wie kann man einen Test hinsichtlich sei- 
ner externen Validitat optimieren? Hierauf 
gibt es zwei Antworten, die sich teilweise 
widersprechen. Zum einen gilt die plaka- 
tive Regel, daB ein Test nicht valider sein 
kann als es seine Reliabilitat zulaBt. Das 
bedeutet, daB man die externe Validitat 
durch eine Steigemng der MeBgenauigkeit 
erhohen kann. Diese Zusammenhange 
werden in Kapitel 6.4.2 behandelt. 

Zum anderen gilt auch die von vielen 
Testkritikem angefuhrte Beziehung, daB 
MaBnahmen zur Erhohung der Reliabilitat 
die externe Validitat eines Tests senken 
konnen. Diese partielle Unvereinbarkeit 
einer gleichzeitigen Optimiemng von Re- 
liabilitat und externer Validitat wird als 
Reliabilitdts-Validitdts-Dilemma bezeich- 
net und in Kapitel 6.4.3 dargestellt. 



Diese Variable muB sich per Definitionem 
von der durch den Test gemessenen laten- 
ten Variable 0 unterscheiden und wird irn 
folgenden mit Y bezeichnet. Da sowohl 0 
wie auch Y eine quantitative oder eine ka- 
tegoriale Variable sein kann, gilt es bei der 
Berechnung des Zusammenhangs vier 
Falle zu unterscheiden: 



quantitativ 
0 

kategorial 

Ublicherweise wird die externe Validitat 
nur fur den Fall definiert, daB beide Va- 
riablen quantitativ sind, und zwar als Kor- 
relation zwischen dem MeBwert 0 und 
dem Kriterium Y : 

(1) Val y (§) = Koit(0,y) 

Das Quadrat des Korrelationskoeffizienten 
gibt den gemeinsamen Varianzanteil 
beider Variablen an, was in Abbildung 
159 graphisch veranschaulicht ist: 



Y 

quantitativ kategorial 



Korr 


B 


B 


c 
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Var(9) = 1 Var(Y)= 1 




Abbildung 159: Der quadrierte Korrelations- 
koeffizient als gemeinsamer Varianzanteil 

Somit gibt das Quadrat der Validitat eines 
Tests an, welcher Anteil der Varianz des 
Validitatskriteriums durch den Test erkldrt 
oder vorhergesagt werden kann. Hat ein 
Test bzgl. eines Kriteriums eine Validitat 
von 0.70, so kann man mit dem Test 49% 
der Varianz des Kriteriums vorhersagen. 

Ein solcher Varianzanteil laBt sich auch 
bestimmen, wenn die gemessene Variable 
9 kategorial ist, es sich also um einen 
klassifizierenden Test handelt. Das ent- 
sprechende MaB wird im Rahmen der 
Varianzanalyse als T) (Eta-quadrat) be- 
zeichnet und laBt sich folgendermaBen 
berechnen: 

G /_ _%2 

X"g(VY) 

(2) . 

X(y.-V 2 

V— 1 

wobei y v den Wert der Person v auf der 
Variable Y, Y den Gesamtmittelwert von 
Y und Y u den Mittelwert aller Personen in 

Klasse g bezeichnet. 

Die Wurzel aus r) , also Tj, gibt die Vali- 
ditat eines klassifizierenden Tests an. 



Datenbeispiel 

Fur das in Kapitel 3.2 beschriebene Da- 
tenbeispiel zum Umwelthandeln wird ein 
Validitatskriterium herangezogen, das 
las (selbstberichtete) AusmaB an ‘politi- 
schem’ Umwelthandeln reprasentiert. 
Hierbei handelt es sich um eine quan- 
titative Variable. Ihre Korrelationen mit 
den 4, durch den Fragebogen erhaltenen 
MeBwerten betragen: 

Val y (0|)= 0.62 

Valy (e 2 ) = -0.32 
Val y (e 3 ) = -0.03 

Valy (0 4 ) = -0.28. 

ErwartungsgemaB ist die Korrelation mit 
dem ersten MeBwert am hochsten. Dieser 
erfaBt die Tendenz der Personen, in 
Kategorie ‘0’ zu antworten ('Habe ich 
schon getan bzw. tue ich bereits’). Der 
MeBwert hat also eine Validitat von 
0.62. Da es sich bei den 4 MeBwerten 
um ipsative Werte handelt, sind ihre Va- 
liditaten voneinander abhangig (vgl. 
Kap. 3.2.2). In diesem Fall ist ihre Sum- 
me fast gleich Null, wie es fur ipsative 
Variablen mit gleichen Varianzen auch 
der Fall sein muB. 

Die Klassenanalyse desselben Fragebo- 
gens ergab 3 Klassen, von denen die 
dritte Klasse die Personen mit der stark- 
sten Tendenz zum Umwelthandeln um- 
faBt. Dies spiegelt sich auch in den 
folgenden Mittelwerten der Variable Y 
wider: 



Klasse 1 
Klasse 2 
Klasse 3 



Y g 


n g 


0.31 


163 


0.15 


187 


1.34 


450 
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Zur Berechnung der Validity des klassi- 
fikatorischen Testergebnisses, d.h. zur 
Berechnung von t|, benotigt man noch 
den Gesamtmittelwert, Y = 0.856, und 
die Varianz von Y, Var(Y)= 0.818. Da 
die Varianz einer Variable definiert ist 
als die Abweichungsquadratsumme di- 
vidiert durch die StichprobengroBe 



N 

I 



(y v -Y) 2 



Var( Y) = — 



2 

erhalt man den Nenner von T] (Glei- 
chung (2)) durch Multiplikation der Va- 
rianz mit N, also 0.818 . 800 = 654. Der 
Zahler liiBt sich mit den o.g. Klas- 
senmittelwerten und KlassengroBen be- 
rechnen und betragt 247, so daB sich ein 
r\ von 0.38 und eine Validitat von 
r) = 0.61 ergibt. 



Es handelt sich um einen gliicklichen 
Zufall, daB bei diesen Daten die Validi- 
taten des quantitativen und des klassifi- 
katorischen Testergebnisses nahezu iden- 
tisch sind. In der Regel muB das nicht der 
Fall sein. Beide Validitaten konnen sich 
dann unterscheiden, wenn die individuel- 
len Unterschiede durch eines der Modelle 
schlechter reprasentiert sind als durch das 
andere. 

Das Validity skriterium kann auch aus 
einer kategorialen Variable bestehen, z.B. 
bei einem Test, der den Studienerfolg 
vorhersagen soil, aus der Variable mit den 
drei Kategorien: 

Y = 1 : Studium abgebrochen 

Y = 2 : Studium in der Regelstudienzeit 

abgeschlossen 

Y = 3 : Studium mit zusatzlichen Seme- 

stern abgeschlossen. 



Besteht das Testergebnis aus einem quan- 
titativen MeBwert, so kann dessen Validi- 
ty ebenfalls mit Hilfe von r| bestimmt 
werden, auch wenn hier die Rollen von 0 
und Y vertauscht sind: 



(3) Val y (S) 



2>„(5h-e) 2 



h=l 




Mit 0 h ist hier der Mittelwert der MeB- 
werte aller Personen in der Kriteriums- 
gruppe h bezeichnet und mit n h die An- 
zahl der Personen in dieser Gruppe. Zwar 
kann man das Quadrat der so berechneten 
Validitat nicht als durch den Test 
aufgeklarten Anteil an der Varianz des 
Validitdtskriteriums interpretieren, da fur 
die kategoriale Variable Y keine Varianz 
berechnet werden kann. Aber es handelt 
sich trotzdem um einen Varianzanteil, 
namlich den Anteil der Mefiwertvarianz, 
der fur die Zuordnung zu den Kriteriums- 
gruppen herangezogen wird. Man nennt 
diesen Varianzanteil auch die valide 
Varianz des Tests. 

Sind beide Variablen, 0 und Y, kategorial, 
so wird ihr empirischer Zusammenhang 
durch eine Hdufigkeitstabelle reprasen- 
tiert, z.B. fiir 3 latente Klassen und 3 
Kriteriumsgruppen : 

Y 





h = 1 


h = 2 


h = 3 


g= 1 


n ll 


n 12 


n l3 


0 g = 2 


n 21 


n 22 


n 23 


g = 3 


n 31 


n 32 


n 33 




n l 


n 2 


n 3 
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Diese Haufigkeitstabelle muB nicht qua- 
dratisch sein, da 0 und Y unterschiedliche 
Kategorienanzahlen haben konnen. Damit 
entfallt die Moglichkeit, als Zusammen- 
hangsmaB das in Kapitel 2.5.1 be- 
schriebene MaB ‘Cohen’s k' heranzuziehen. 



Das allgemeinste MaB zur Bcsehrcibung 
des Zusammenhangs zweier kategorialer 
Variablen ist der Kontingenzkoeffizient C, 
der aus dem % -Wert einer Haufigkeitsta- 
belle abgeleitet ist. 



'•y 

Der % -Wert ist folgendermaBen definiert 
(vgl. Kap. 5.2): 



(4) X - II 

g=l h=l 



V £ ( n gh- e ghl 



wobei die n gh die beobachteten Zellen- 

haufigkeiten der Tabelle bezeichnen und 
e gh die erwarteten Haufigkeiten unter der 

Annahme, daB es keinen Zusammenhang 
zwischen Testergebnis und Validitatskri- 
terium gibt. Letztere lassen sich aus den 
Rands unrrnen der Haufigkeitstabelle, also 
den Klassen- bzw. GruppengroBen rig und 

n h berechnen: 



e gh 



n g ■ n h 
N 



Der Kontingenzkoeffizient C ist dann fol- 
gendermaBen definiert: 

(5) C = 




Die mbglichen Werte von C liegen 
zwischen 0 und 1, wobei C allerdings den 
Nachteil hat, daB der maximal erreichbare 
Wert bei kleineren Haufigkeitstabellen 
deutlich unter 1 liegt. Fiir quadratische 
Haufigkeitstabellen laBt sich das Maxi- 
mum von C berechnen, es betragt namlich 




wenn G die Anzahl der Zeilen bzw. Spal- 
ten der Tabelle ist. Um einen errechneten 
Wert von C hinsichtlich der TabellengroBe 
zu korrigieren, laBt sich folgende ‘Auf- 
wertung’ von C vornehmen: 




C 

c 

'-'max 



Anhand dieser Darstellung wird deutlich, 
daB der Kontingenzkoeffizient zwar eine 
pragmatische Moglichkeit bietet, die Vali- 
ditat eines klassifikatorischen Testergeb- 
nisses hinsichtlich eines kategorialen Vali- 
ditatskriteriums zu berechnen. Er ist je- 
doch algebraisch nicht aquivalent zu dem 
Korrelationskoeffizienten oder zu r|. 

Neben diesen Moglichkeiten der Validi- 
tatsberechnung, die sich aus den unter- 
schiedlichen Skalenniveaus der MeBwerte 
und des Validitatskriteriums ergeben, wer- 
den verschiedene Arten der Testvaliditat 
unterschieden, die sich aus der Art der 
Kriteriumsvariablen Y ergeben. 

Von prddiktiver oder prognostischer Va- 
liditat spricht man, wenn das Validitatskri- 
terium Y zeitlich spater erhoben wird und 
einen Teil dessen reprasentiert, was der 
Test vorhersagen soil (Pradiktion) oder im 
vorhinein erkennen soil (Prognose). Bei- 
spiele sind ein Schuleingangstest, der an 
der Abitumote validiert wird, oder ein 
Psychotizismusfragebogen, der an einer 
spateren psychiatrischen Diagnose vali- 
diert wird. Das Gegenstiick zur pradikti- 
ven Validitat ist die konkurrente Validitat, 
bei der das Validitatskriterium mein - oder 
weniger zeitgleich mit der Testvorgabe er- 
hoben wird. 
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Mit Konstruktva lidi tat ist der Zusammen- 
hang des Testergebnisses mit anderen 
MeBwerten gemeint, die dasselbe psycho- 
logische Konstrukt erfassen sollen. Ein 
Beispiel ist etwa die Validierung eines neu 
entwickelten Intelligenztests anhand ande- 
rer, bereits existierender Intelligenztests 
oder anhand weiterer Indikatoren fiir das, 
was der Testkonstrukteur unter Intelligenz 
versteht. 

Als faktorielle Validitat bezeichnet man 
eine Variante der Konstmktvaliditat, die 
ihrcn Namen daher hat, daB die Validitat 
mittels der Faktorenanalyse analysiert 
wird. Bei einer Faktorenanalyse werden 
die korrelativen Zusammenhange sehr 
vieler Testergebnisse gemeinsam verarbei- 
tet. Als Ergebnis erhalt man sog. Faktorla- 
dungen, die die Korrelation eines Tests 
mit einer latenten Variable, einem Faktor 
angeben (vgl. Kap. 6.2.3). Hat ein Test 
eine hohe Fadung auf einem Faktor, der 
als das identifiziert werden kann, was der 
Test messen soil, so hat der Test eine hohe 
faktorielle Validitat. 

Das Begriffspaar konvergente und diskri- 
minante Validitat zielt darauf ab, daB ein 
Test nicht nur mit Tests, die ein ahnliches 
Konstrukt erfassen, hoch korrelieren sollte 
(konvergente Validitat), sondem auch mit 
Tests, von denen sich das Konstrukt 
abgrenzen mochte, niedrig korrelieren 
sollte (diskriminante Validitat). Ein Bei- 
spiel ware etwa ein neuer Fragebogen zur 
Einstellung zum Umweltschutz, der nicht 
allzu hoch mit althergebrachten Skalen 
zum politischen Konservativismus korre- 
lieren sollte, da er sonst keine wirklich ei- 
genstandige Einstellung erfaBt. 



6.4.2 Maximal erreichbare 
Validitaten 

Die Validitat eines Tests ist definiert als 
Korrelation des (meBfehlerbehafteten) 
MeBwertes 0 mit einem Kriterium Y. 
Dariiber, ob das Validitatskriterium fehler- 
frei gemessen wird oder nicht, wurde 
nichts ausgesagt. Da man die Korrelation 
eines Testergebnisses mit einem Kriterium 
aber stets anhand empirisch festgestellter 
Werte emiittelt, kann man auch hier einen 
MeBfehler annehmen. Die empirisch be- 
rechnete Validitat ist daher in der Regel 
eine Korrelation zwischen zwei Schatz- 
werten oder fehlerbehafteten MeBwerten: 

Val y (e) = Korr(§,Y) . 



Wie wirkt sich der MeBfehler des Tester- 
gebnisses und der Messung des Validitats- 
kriteriums auf die Hohe der errechneten 
Validitat aus? Die Antwort ist eindeutig: 
negativ. Bezeichnet man mit 0 und Y, im 
Gegensatz zu 0 und Y, die fehlerfreien 
also wahren Werte einer Person auf den 
beiden Variablen, so gilt allgemein: 



(1) Korr(§,Y): 



Korr(e,Y) 

oder 

Korr(e, y) 



<Korr(0,Y). 



Das bedeutet, daB man die ‘wahre Validi- 
ty’ eines Tests, also die Validitat des Test, 
wenn es keine MeBfehler gabe, stets un- 
terschdtzt und das umso mehr, je groBer 
der MeBfehler ist. Im Rahmen der allge- 
meinen MeBfehlertheorie (vgl. Kap. 6.1) 
gilt die Beziehung, daB die Korrelation 
zweier Vai'iablen stets kleiner sein muB als 
die Wurzel aus der Reliabilitat der Vai'ia- 
blen mit der geringeren Reliabilitat: 
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Hat ein Test z.B. eine Reliabilitat von 
0.81, so kann seine Validitat gar nicht 
groBer als 0.9 werden. Diesen Grenzwert 
erreicht die Validitat auch nur dann, wenn 
das Validitatskriterium nicht nur vollig 
fehlerfrei gemessen wurde, sondem zudem 
auch noch identisch mit der im Test 
gemessenen latenten Variable 0 ist. Die 
Wurzel aus der Testreliabilitat entspricht 
namlich der Korrelation des MeBwertes 
mit dem fehlerfreien, wahren MeBwert: 



Rel 0 =Korr 0,0 



Ableitung 

Die Beziehung (3) ergibt sich allein aus 
dem Sachverhalt, daB das Quadrat einer 
Korrelation den gemeinsamen Varianzan- 
teil der beiden korrelierten Variablcn an- 
gibt (s. Abb. 159). Gleichung (3) laBt sich 
somit direkt aus der Definition der 
Reliabilitat (vgl. Kap. 2.1.2) ableiten: 

Rel(e) = Var S I = Korr(0, &f , 

Var(0J 

wenn man bedenkt, daB die Varianz der 
wahren Werte in der Varianz der MeB- 
werte enthalten ist (vgl. Kap. 6.1.1), d.h. 

Var(§) = Var(0) + Var(E Q ) . 



Da kein MeBwert mit einer anderen Va- 
riable holier korrelieren kann als mit sei- 
nem eigenen wahren Wert, gilt die in Glei- 
chung (2) ausgedruckte obere Grenze der 
Validitat. 



Diese Obergrenze laBt sich weiter 
prazisieren, wenn man annimmt, daB das 
Validitatskriterium dieselbe (oder keine 
hohere) Reliabilitat hat wie der Test. In 
diesem Fall gilt 

(4) Korr(e,Y)<Rel(e), wenn Rel(Y)< Rel(§). 



Die Kurzformel ‘Die Validitat kann nicht 
grofier sein als die Reliabilitat’ gilt also 
nur fur den Fall, daB das Validitatskrite- 
rium auch keine hohere Reliabilitat hat als 
der Test (was oft der Fall ist). 

In Formel (4) gilt das Gleichheitszeichen, 
wenn die wahren Werte von Test und 
Validitatskriterium identisch sind: 

(5) Korr(0, Y ) = Re l(o), 
wenn0 = Y und Rel(Y) = Rel(o). 

Diese Beziehung stellt die Grundlage dar 
fur die Reliabilitatsberechnung im Rah- 
men der MeBfehlertheorie (s. Kap. 6.1.1). 

Bei einer Testentwicklung ist man oft 
daran interessiert zu berechnen, wie hoch 
denn die Validitat des Tests ware, wenn 
der Test reliabler ware oder sich das Vali- 
ditatskriterium reliabler erfassen lieBe. 
Hier sind drei Falle zu unterscheiden, 
namlich die Korrelation des MeBwertes 0 
mit dem fehlerfreien Kriterium Y 

/„ V Korr(o, y) 

(6) Korr(0, Y J = 

die Korrelation des wahren MeBwertes 0 
mit dem fehlerbehafteten Kriterium Y 




(7) 




Korr(o, y) 
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und schlieBlich die Korrelation, wenn bei- 
de MeBwerte fehlerfrei waren, 

Korr(e,Y) 

(8) Korr(6. i-r. 

jRd(e)Rd(Yj 

Diese Formeln heiBen Verdiinnungsfor- 
meln (engl.: attenuation formulae), da sie 
zeigen, wie die empirisch emiittelten Vali- 
ditaten durch die MeBfehler von Test und 
Kriterium ‘verdiinnt’ also ‘verwassert’ oder 
‘verkleinert’ werden. Umgekehrt spricht 
man von einer Aufwertung oder Minde- 
rungskorrektur empirisch ermittelter Kor- 
relationen, wenn man sie um den MeBfeh- 
ler der beteiligten Variable!! bereinigt. 



Ableitung 

Die Verdiinnungsformeln gehen bereits 
auf den Intelligenzforscher Spearman 
(1904) zuriick, der diese Formeln ableitete 
und zur Stutzung seiner Intelligenztheorie 
beniitzte, lange bevor die MeBfehlertheorie 
als sog. klassische Testtheorie axioma- 
tisiert wurde. Trotzdem sind die bisher 
behandelten GesetzmaBigkeiten der allge- 
meinen MeBfehlertheorie fur die Ablei- 
tung dieser Formeln hilfreich. Zunachst 
benotigt man die Tatsache, daB die Kova- 
rianzen (im Gegensatz zu den Korre- 
lationen) nicht vom MeBfehler beeinfluBt 
sind, d.h. es gilt 

(9) Cov(e, y) = Cov(e, y) = Cov(e, y) = cov(e, y) . 

Gleichung (9) ergibt sich aus der Addi- 
tivitat der Kovarianz fiir zusammenge- 
setzte Werte 

Cov(g,y) = 

Cov(e, Y) + Cov(e, E J + Cov(E e , Y) + Cov(E e ,E y ) 

und der Tatsache, daB die letzten drei 
Sunmianden wegen der Axiome II und IV 



der MeBfehlertheorie (s. Kap. 2.1.2) gleich 
Null sind. 

Unter Heranziehung der Definition des 
Korrelationskoeffizienten und der Reliabi- 
litat laBt sich Gleichung (8) folgender- 
maBen auflosen: 

Korrfo, y) 

Korr(0, Y) = 



Cov(§. y) 




Cov(o, y) 



^/Var(0)- Var(Y) ’ 

was wegen Gleichung (9) tatsachlich der 
Definition der Korrelation der wahren 
Werte entspricht. Die Gleichungen (6) und 
(7) lassen sich nach demselben Muster 
beweisen. 



^Rel(IJ^Rel(t) 



Die Effekte dieser MindemngskoiTektur 
sind umso starker, je weniger reliabel der 
Test oder das Validitatskriterium erfaBt 
wurde. 

Die folgende Tabelle vermittelt einen 
Eindruck von der Starke des Korrektur- 
effektes: 

Rel(e) 





.7 


.8 


.9 


.5 


.60 


.56 


.53 


.6 


.72 


.67 


.63 


Korr(§, y) .7 


.84 


.78 


.74 


.8 


.96 


.89 


.84 


.9 


- 


- 


.94 
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Das Tnnere der Tabelle gibt die nach 
Formel (7) aufgewertete Validitat des 
Tests wieder, wenn dessen MeBwerte 
fehlerfrei waren. Die beiden freien Platze 
der Tabelle stellen Falle dar, die nach 
Gleichung (2) nicht vorkommen konnen, 
da hier die Validitat des Tests holier ist als 
die Wurzel aus seiner Reliabilitat. 

Anhand der Verdiinnungsformeln laBt sich 
einerseits abschatzen, ob es sich lohnt, die 
Validitat eines Tests iiber eine Erhohung 
seiner Reliabilitat zu optimieren. Anderer- 
seits macht es oft auch Sinn, Validi- 
tatsangaben gleich um den MeBfehler des 
Validitdtskriteriums zu bereinigen, denn 
die Unreliabilitat eines Validierungskrite- 
riums soil ja nicht zu Lasten eines Giite- 
kriteriums des Tests gehen. Angaben iiber 
die faktorielle Validitat eines Tests (s.o.) 
sind in der Regel schon fehlerbereinigt 
(und somit holier), da eine Ladungszahl 
die Korrelation mit einer latent en Variable 
angibt und nicht mit einem MeBwert. 

6.4.3 Das Reliabilitats-Validi- 
tats -Dilemma 

In diesem Kapitel geht es um die Frage, 
ob eine gleichzeitige Optimierung von 
Validitat und Reliabilitat iiberhaupt niog- 
lich ist, oder ob eine Validitatssteigerung 
durch Reliabilitatserhohung nicht einen 
Widerspruch in sich birgt. Ein soldier Wi- 
derspruch wird in der weit verbreiteten 
Kritik an psychologischen Tests behaup- 
tet, daB ein zu starkes Augenmerk auf 
Steigerung der MeBgenauigkeit bei der 
Testentwicklung letztlich dazu fiihrt, daB 
der Test etwas vollig Irrelevantes miBt - 
das allerdings sehr prazise. 



Tatsachlich laBt sich im Rahmen der all- 
gemeinen MeBfehlertheorie ein soldier 
Widerspruch formal ableiten. Hierfur muB 
man die Axiome der MeBfehlertheorie 
(vgl. Kap. 2.1.2) auf die Bestandteile eines 
Tests, also die Items anwenden. Das 
bedeutet, daB die Itemantworten X vi selbst 
als fehlerbehaftete MeBwerte betrachtet 
werden. Diese Annahme ist fur dichotome 
Antwortvariablen problematisch (s. Kap. 
3.1. 1.2.1) aber zum Zwecke der Be- 
we is full rung kann man sich auch metri- 
sche Antwortvariablen vorstellen oder die 
Summenscores von Itembiindeln, d.h. von 
kleinen Gruppen dichotomer Items. Diese 
MeBwertvariablen werden mit X ; be- 

k 

zeichnet, ihr Summenscore X = ^ X, 

i=l 

stellt das Testergebnis, also die MeBwert- 
variable des Gesamttests dar, und Y ist ein 
externes Validitatskriterium. 

Anmerkung 

Das A iiber X und Y zur Unterscheidung von feh- 
lerbehafteten und wahren Werten wird in diesem 
Kapitel weggelassen, da es sich stets um fehlerbe- 
haftete MeBwerte handelt. 

Die Validitat eines einzelnen Items laBt 
sich iiber seine Korrelation mit deni Kri- 
terium definieren, 

V al(X i )=Korr(X i , Y), 

und seine Reliabilitat ist eine monotone 
Funktion der Korrelation mit dem 
GesamtmeBwert X, also der Trennscharfe 
des Items: 

Rel(Xi) = Korr(Xj,X) . 

Diese Beziehung zwischen der Reliabilitat 
eines Items und seiner Trennschaife ergibt 
sich aus der Tatsache, daB im Rahmen der 
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allgemeinen MeBfehlertheorie die Reliabi- 
lity eines Tests gleich der Korrelation des 
Tests mit einem anderen Test ist, welcher 
dieselbe Personenvariable mit gleicher 
MeBgenauigkeit miBt (sog. Paralleltest 
vgl. (5) in Kap. 6.4.2). Da jedes Item und 
der Gesamtscore zwar dieselbe Personen- 
variablc erfassen, dies aber mit ungleicher 
Genauigkeit tun (der Gesamtscore ist we- 
sentlich genauer), entsprechen Reliability 
und Trennscharfe nicht einander, stehen 
aber in einer engen Beziehung zueinander. 

Aus Gleichung (8) des vorangehenden 
Kapitels laBt sich ableiten, daB die Korre- 
lation zweier MeBwerte X, und X, die 
dieselbe Valuable messen, gleich der Wur- 
zel aus dem Produkt beider Reliabilitaten 
ist 

(1) Korr(X i ,X) = A /Rel(X i )-Rel(X). 



Die Auflosung der Gleichung nach der 
Itemreliabilitat 



Re l(Xj ) = 



Korr(Xj,X ) 2 



Rel(X) 



zeigt, daB die Reliabilitat eines Items stets 
kleiner ist als seine Trennscharfe. Sie 
konnte nur dann groBer werden, wenn die 
Reliabilitat des Gesamttests kleiner ware 
als die Trennscharfe. Dieser Fall ist aber 
nach den Voraussetzungen nicht moglich. 



Nach diesen Feststellungen iiber die 
Validity und Reliabilitat eines Items, wird 
ini folgenden eine Gleichung abgeleitet, 
die das widerspriichliche Verhaltnis von 
Reliabilitat und Validitat deutlich macht. 



(2) Korr(X, Y) = 



Cov(X, Y) 
/Var(X)- Var(Y) 



Cov 



I Xj.Y 

Vi / 



Cov 



X Xj.x 

V i 



Var(Y) 



Hier wurde im Nenner die Vaiianz von X 
durch die Kovarianz von X mit sich selbst 
ersetzt (was algebraisch identisch ist) und 
im Zahler wie im Nenner wurde jeweils 
eine X- Variable durch die Summe der 
Itcmvariablcn ersetzt. Da die Kovarianz 
einer Summe von Variablen gleich der 
Summe der Kovarianzen ist (vgl. den Ka- 
sten in Kapitel 6.4.2) laBt sich die Validi- 
ty weiter umwandeln in: 

k 

X Cov(Xi Y) 

^ Ik ^ 

JX Cov(Xj ,X) • Var(Y ) 

k 

X Cov(X i ,Y)- A /Var(X) 

_ i=l 

k ’ 

XCov(X i ,X)-VVar(Y) 

i=l 

nach Erweiterung des Bruches um 
^Var(X) . Ersetzt man die Kovarianzen 
durch die Konelationen, multipliziert mit 
der Wurzel aus den Varianzen, so ergibt 
sich 



Die Validitat des Gesamttests laBt sich 
folgendermaBen zerlegen: 
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(4) Korr(X, Y ) 

k 

VVar(X) X Korr(X i ,Y)^Var(X i )^Var(Y) 
M 

k 

VVar(Y) X Korr(X 1 ,Y) > /Var(X i ) > /Var(X) 

i=l 

£ Korr(X i ,Y) A /Var(X i ) 

_i^i 

£ Korr(X 1 ,X) A /Var(X 1 ) 

i=l 

Dies ist die gesuchte Gleichung fiir die 
Validitat des Gesamttests, in der im Zahler 
die Item-Validitaten und im Nenner die 
Item-Reliabilitaten (genauer: Trennschar- 
fen) stehen. Die Gleichung besagt, dab die 
Validitat des Gesamttests sinkt, wenn die 
Trennschaifen der Items (und sornit die 
Testreliabilitat) steigen (bei konstanten 
Itemvaliditaten). Die in der Gleichung 
ausgedruckte Beziehung wird als das Re- 
liabilitats-Validitats-Dilemma (der klassi- 
schen Testtheorie) bezeichnet. 

Es laBt sich gut dariiber spekulieren, ob 
die Annahmen unter denen Gleichung (4) 
zu einem Dilemma fiihrt, wirklich reali- 
stisch sind. So ist es fraglich, ob eine Ver- 
groBcrung des Nenners (der Trennschar- 
fen) moglich ist, ohne auch den Zahler 
(die Item-Validitaten) zu erhohen: Ersetzt 
man namlich ein trennschwaches Item bei 
der Testentwicklung durch ein trennschar- 
feres, so diirfte dieses Item nach allem, 
was in Kapitel 6.4.2 gesagt wurde, auch 
eine hohere Validitat besitzen. Die durch 
Gleichung (4) beschriebene Validitat des 
Gesamttests senkt sich in diesem Fall 
nicht. Gleichung (4) beschreibt nur dann 
ein Dilemma, wenn man davon ausgeht, 
daB sich Trennschaifen und Item-Validita- 
ten unabhangig voneinander variieren las- 
sen. 



Trotzdem stellt sich die Frage, ob sich das 
spannungsreiche (wenn schon nicht wider- 
spriichliche) Verhaltnis zwischen Relia- 
bilitat und Validitat auch dann zeigt, wenn 
man nicht die allgemeine MeBfehlertheo- 
rie, sondern eines der in Kapitel 3 be- 
schriebenen Testmodelle auf die Itemant- 
worten anwendet. Leider gibt es hierzu 
keine vergleichbare Formel, anhand derer 
sich das Verhaltnis analysieren lieBe. 

DaB eine Itemauswahl, die sich aus- 
schlieBlich an der Verringerung des MeB- 
fehlers und der Erhohung der internen 
Validitat (Modellgeltung) orientiert, zu 
einer Homogenisierung der Testitems 
fiihrt, gilt wohl fiir jedes quantitative Test- 
modell. Items, die einen etwas anderen 
Aspekt der zu messenden Valuable an- 
sprechen, als der Rest der Items, laufen am 
ehesten Gefahr, eine schlechte Modellan- 
passung (Itemfit, vgl. Kap. 6.2) zu zeigen 
und bei der Testentwicklung heraus- 
zufallen. Das fiihrt dazu, daB die verblei- 
benden Items einander immer ahnlicher, 
also homogener werden. 

Will man andererseits ein lebensnahes 
Kriterium wie ‘den Studienerfolg’ oder ‘das 
Auftreten psychischer Storungen’ mit 
einem Test vorhersagen, so koixeliert ein 
Testergebnis, das sehr viele Bedingungen 
des derart komplexen Kriterium s abdeckt, 
hoher mit der Kiiteriums variable. Fiir die 
externe Validitat kann also Heterogenitat 
der Testitems forderlich sein. So besehen 
gibt es auch hier ein ‘Reliablilitats-Vali- 
ditats-Dilemma’ . 

Dieses Dilemma ist jedoch kein Schwach- 
punkt irgendeiner Testtheorie, es ist iiber- 
haupt kein Problem der Testtheorie. Es 
entsteht erst dadurch, daB man die Kon- 
stmktion von intern validen MeBwerten 
nicht trennt von der Frage, mit welchen 
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anderen Variahlcn diese MeBwerte korre- 
lieren. Natiirlich soil ein Testergebnis 
auch zur Vorhersage komplexer Kiiterien 
brauchbar sein, aber in Kombination niit 
anderen Variable!!, urn der Komplexitat 
des Kriteriums gerecht zu werden. Die 
notwendige Heterogenitat von Variablen 
zur Vorhersage eines komplexen Kriteri- 
ums innerhalb eines Tests und eines 
MeBwertes anzusiedeln, heiBt, auf die 
sonstigen Qualitaten des Tests zu 
verzichten. 



Literatur 

Methoden und Probleme der Validitatsbe- 
rechnung behandeln z.B. Lienert & Raatz 
(1994). Die Berechnung l) 2 und des Kon- 
tingenzkoeffizienten findet sich in Bortz 
(1977). Die Verdiinnungsformeln werden 
ausftihrlich von Lord & Norick (1968) 
behandelt und das Reliabilitats-Validitats- 
Dilemma diskutiert Loevinger (1954). 
Fragen der Validierung von Tests werden 
in vielen Lehrbiichern der psychologi- 
schen Diagnostik ausfiihrlich behandelt. 



Ubungsaufgaben 

1. Eine quantitative Valuable 0, die an 
500 Personen gemessen wurde, hat die 
Varianz Var(©)= 0.2. Diese Valuable 

sollte das Ergebnis in der theoretischen 
Falnpriifung vorhersagen. Die 100 Per- 
sonen, die bei der Priifung durchge- 
fallen sind, hatten den mittleren 
MeBwert -0.8, die 400, die bestanden 
haben, einen Mittelwert von +0.2. Wie 
groB ist die Validitat des Tests? 



2. Die Prognose des Fahrlehrers, wel- 
che(r) Fahrschuler die theoreti- 
sche Priifung beirn erstenmal be- 
stehen wiirde, ergab zusanumen mit 
dem tatsachlichen Priifungsergebnis 
folgende Haufigkeitstabelle: 



tatsachliches Ergebnis 
+ 



+ 

Prognose 



390 


60 


10 


40 



450 

50 



400 100 

Wie groB ist die Validitat des Fahr- 
lehrer Urteils? 

3. In einem Testmanual lesen Sie, daB 
die minderungskorrigierte Validitat 
des Tests 0.85 betrage. Seine Reliabi- 
litat betragt 0.75. Wie hoch ist die 
empirisch berechnete Korrelation des 
Tests mit dem Kriterium? 

4. Sie wollen mit einem Fragebogen die 
Einstellung zum Umweltschutz erfas- 
sen und Sie verfiigen zur Validiemng 
des Tests iiber die Infoiunation, ob die 
Personen bei der letzten Wahl ‘Die 
Giuinen’ gewahlt haben oder nicht. 
Bitte formulieren Sie 3 sehr homoge- 
ne Items, von denen sie eine geringe 
externe Validitat des Gesamttests er- 
warten, und 3 heterogene Items mit 
vermutlich hoherer externer Validitat. 
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6.5 Die Normierung von 
Tests 

In Kapitel 2.1.5 wurde der Unterschied 
zwischen einer normorientierten und einer 
kiiteriumsorientierten Testauswertung dar- 
gestellt. Das Konzept des kriteriums- 
orientierten Testens ist theoretisch sehr 
attraktiv, da es darauf abzielt, die Person 
nicht mit einem statistischen Populati- 
onsmittelwert zu vergleichen, sondern mit 
einem inhaltlich-psychologisch gesetzten 
Kriterium. Trotzdem arheitet man in der 
Testpraxis meistens normorientiert, da es 
sehr informativ ist zu wissen, welche Po- 
sition eine Person innerhalb ihr er Refe- 
renzpopulation einnimmt. 

Es stellt sich die Frage, ob die fiir ein 
quantitatives Testmodell geschiitzten Para- 
meter 0 oder die anhand eines klassifi- 
zierenden Modells geschatzten Klassenzu- 
gehorigkeiten per se schon kriteriums- 
orientierte oder normorientierte MeBwerte 
darstellcn, wenn man die zur Datenanalyse 
herangezogene Personenstichprobe als 
reprdsentativ fiir eine Referenzpopulation 
betrachtet. Fiir beide Moglichkeiten gibt 
es Argu men te. 

Zunachst zu den Parametem quantitativer 
Modelle. Diese unterliegen bereits gewis- 
sen Normierungsbedingungen, die in 
Kapitel 3 jeweils mit dargestellt wurden. 
Die Nomiierungsbedingung des dichoto- 
men Rasch-Modells lautet z.B., daB die 
Sunmie der Itemschwierigkeiten wahrend 
der Parameterschatzung gleich Null 
gesetzt wird. Das fiihrt dazu, daB eine 
einzelne Itemschwierigkeit nichts aussagt, 
sondern nur ein Vergleich mit anderen 
Itemparametern. 



Mit der Normierung der Itemparameter 
sind auch die Personenparameter festge- 
legt, jedoch nicht so, daB auch ihre 
Summe gleich Null ware. Ist der Test zu 
leicht, so liegt der Mittelwert aller Perso- 
nenparameter deutlich iiber Null (die Per- 
sonen sind also sehr Tahig’). Ist der Test 
zu schwer, liegt der Mittelwert unter Null. 
Ein MeBwert von 0 = 0.0 besagt, daB die 
Person die Items dieses Tests im Mittel 
mit der Wahrscheinlichkeit p = 0.5 lost. 

Insofern machen die Personenparameter 
hier eine kriteriumsorientierte Aussage, 
namlich dariiber, wo die Personen hin- 
sichtlich des durch die Itemauswahl ge- 
setzten Kriteriums stehen. 

Stellen die in einem Test zusam- 
mengefafiten Items das Kriterium 
dar, an dem die Personen gemessen 
werden sollen, so ermoglicht die 
iibliche Summennormierung der 
Items eine kriteriumsorientierte In- 
terpretation der Personenparame- 
ter. 

Andererseits wird bei Rasch-Modellen oft 
hervorgehoben, daB die Testergebnisse 
unabhdngig davon sind, ob der Test eher 
leichte oder eher schwere Items umfaBt. 
Diese Aussage bezieht sich auf den Fall, 
daB die Personenparameter fiir sich ge- 
nommen normiert werden, also z.B. auch 
auf ‘Summe gleich Null’. Tatsachlich sind 
dann die Schatzungen der Personenpara- 
meter in ihrer Hohe (nicht in ihrer MeBge- 
nauigkeit, vgl. Kap. 6.1) von der Schwie- 
rigkeit der Items unabhdngig. 

Normiert man die Modellparameter in die- 
ser Weise, so machen die Personenpara- 
meter eine normorientierte Aussage, nitm- 
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lich dariiber, wo die Personen hinsichtlich 
des Populationsmittelwertes stehen. 

Die Personenparameter des Rasch- 
Modells kann man normorientiert 
interpretieren, wenn man statt der 
Summe der Itemparameter die Sum- 
me der Personenparameter gleich 
Null setzt. 



Datenbeispiel 

Werden die Parameter des dichotomen 
Rasch-Modells fur die KFT-Daten (vgl. 
Kap. 3.1) wie iiblich normiert, d.h. so, dab 
die Summe der Itemparameter gleich Null 
ist, erhalt eine Person, die 3 der 5 Items 
gelost hat, einen MeBwert von 0 = 0.42. 
Dieser MeBwert ist kriteriumsorientiert zu 
interpretieren und besagt, daB die Person 
die Aufgaben irn Durchschnitt mit einer 
etwas groBeren Wahrscheinlichkeit als 0.5 
lost. Uber die Leistung der Person relativ 
zu anderen Personen sagt dieser Wert 
zunachst nichts aus. 

Normiert man statt der Itemparameter die 
Personenparameter, so liegt der Mittel- 
wert aller Personenparameter bei 0 = 0.0 
und dieselbe Person erhalt den MeBwert 
0 = 0.55. Dieser MeBwert ist normorien- 
tiert zu interpretieren, denn er besagt, daB 
die Person 0.55 Einheiten auf der logisti- 
schen Skala oberhalb des Populationsmit- 
telwertes liegt. Daiiiber, wie leicht es der 
Person fallt, die Aufgaben zu Ibsen, sagt 
der MeBwert nichts aus. 



Die Normierung der Personenparameter 
kann man auch nachtraglich vornehmen, 
indem man den Mittelwert 0 aller Perso- 
nenparameter bei der iiblichen (Item-) 
Normierung berechnet und ihn von alien 
MeBwerten abzieht: 



0) 0nor m =%nt-0- 

Der Mittelwert betragt im Datenbeispiel 
0 = -0.13, so daB sich aus dem kriteri- 
umsorientierten MeBwert 0 krit = 0.42 der 
normorientierte Wert 0 norm = 0.55 er- 
gibt. 

Obwohl der so definierte, normorientierte 
MeBwert eine Aussage tiber die Richtung 
und das Ausmafi der Abweichung vom 
Populationsmittelwert macht, ist das Aus- 
mafi der Abweichung selbst nicht norm- 
orientiert interpretierbar. Eine Abwei- 
chung von 0.55 Einheiten vom Mittelwert 
laBt sich eindeutig in eine Differenz von 
Losungswahrscheinlichkeiten umrechnen: 
lost eine ‘mittlere’ Person ein Item mit 

p = exp(0)/(l + exp(0)) = 0.5, 

so lost es eine Person mit 0 = 0.55 mit der 
W ahrsehci nl ichkeit 

p = exp(0.55)/(l + exp(0.55)) = 0.63. 

Wie viele Personen aber eine vergleiehbare 
Abweichung nach oben haben, wird mit 
diesem MeBwert nicht ausgedruckt. 

Um auch der Abweichung vom Mittelwert 
eine normorientierte Interpretation zu ver- 
leihen, wird diese Abweichung in Einhei- 
ten der Standardabweichung der MeBwer- 
te ausgedruckt. Hierfiir dividiert man die 
nach (1) berechneten Mittelwertsabwei- 
chungen durch die Standai'dabweichung 
der MeBwerte (d.i. die Wurzel aus der 
Varianz): 
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Datenbeispiel 

Tm Datenbeispiel betragt die Standard- 
abweichung der MeBwerte 

^Var(§) = 1.77 



so daB sich fur den MeBwert 0 = 0.42 die 
folgende Transformation ergibt 



« 0.42 + 0.13 

"norm ~ \ 77 



0.31 . 



Die folgende Tabelle gibt eine Ubersicht 
iiber die Umrechnungsschritte aller Per- 
sonenparameter des Datenbeispiels: 



r 


n r 


0 r 


0 r -0 


(er-e)/Jvar(e) 


0 


58 


-2.77 


-2.64 


-1.49 


1 


48 


-1.33 


-1.20 


-0.68 


2 


46 


-0.41 


-0.28 


-0.15 


3 


50 


+0.42 


+0.55 


0.31 


4 


60 


1.33 


+ 1.46 


0.82 


5 


38 


2.75 


2.48 


1.63 



Sofern die Scoreverteilung einer Nor- 
malverteilung einigermaBen ahnlich sieht 
(was in unserem Datenbeispiel nicht der 
Fall ist) sind die nach Gleichung (2) 
transformierten, normorientierten MeB- 
werte wie standardnormalverteilte, sog. Z- 
Werte zu inteipretieren (vgl. Kap. 6.1.3). 
So besagt z.B. ein normorientierter MeB- 
wert von 0 norm = +1.0, daB 50+34=84% 
der Personen in der Referenzpopulation 
unterhalb dieses MeBwertes liegen (vgl. 
Abb. 152 in Kap. 6.1.3). Uber diese zu- 
satzliche Standardisierung ist auch die Ab- 
weichung vom Mittelwert normorientiert 
interpretierbar. 

Nattirlich kann die Normierung der 
MeBwerte auch getrennt fiir bestimmte 



Teilpopulationen vorgenommen werden, 
z.B. fiir Manner und Frauen, bestimmte 
Berufsgruppen oder Altersgruppen. In die- 
sem Fall ist in Gleichung (2) lediglich der 
Mittelwert und die Standardabweichung 
der entsprechenden Teilpopulation einzu- 
setzen. 

Bei der Interpretation klassifizierender 
Testmodelle ist die Unterscheidung zwi- 
schen normorientierter und kriteriums- 
orientierter Auswertung nicht iiblich aber 
moglich. Die Berechnung der Klassen- 
zugehorigkeit einer Person ist insofem 
schon normorientiert , als die Klassen- 
groBenparameter tc„ und sornit die Vertei- 
lung der latenten Variable in der Refe- 
renzpopulation mit in die Berechnung 
eingeht. 

In Kapitel 3. 1.2.2 wurde die bedingte 
K I asse n wall rsc h c i n I i c li ke i t p(g|x) folgen- 

dermaBen definiert (vgl. Gleichung (11) in 
Kap. 3. 1.2.2): 

iii ^pfels) 

(3) pU|ij= g • 

X n h p(*| h ) 

h=l 



In dieser Gleichung sind die Klassen- 
groBen 7t g als Gewichtungsfaktor fiir eine 
Klassenzugehorigkeit enthalten, so daB 
eine Person mit dem Pattern oc eine hb he- 
re Wahrscheinlichkeit fiir Klasse g erhalt, 
wenn diese Klasse in der Population stark 
vertreten ist, also 7t g groB ist. Insofern ist 
das Testergebnis nicht allein von den 
Testitems als Kriterium abhiingig, sondern 
auch von der Verteilung der Personen- 
variable in der (Norm-)Population. 

Zu der normorientierten Interpretation der 
Klassenzugehorigkeiten gehort auch, daB 
man die KlassengroBen 7l g mit angibt und 
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zur Interpretation heranzieht. Die Aussage, 
claB eine Person zu Klasse 3 gehort, ist 
anders zu bewerten, wenn die Klas- 
sengroBe 7t 3 = 0.05 betragt als wenn sie 
71 3 = 0.65 betragt. 

Eine kriteriumsorientierte Interpretation 
von klassifizierenden Testergebnissen ist 
jedoch auch moglich. In diesem Fall blei- 
ben die KlassengroBen in der Referenz- 
population unberiicksichtigt und zwar 
bereits bei der Berechnung der bedingten 
Klassenwalirsehcinliehkeiten: 

(4) 

X p(x|h) 
h=l 



0 = 0.33, der sich mittels der ublicher 
Itemnormierung ergab? 

2. Ein Antwortpattern x hat in drei Klas- 
sen die Auftretenswahrscheinlichkeit 
p(x| g = l) = 0.0035 

p(x|g = 2) = 0.0045 und 
p(x|g = 3) = 0.0008. 

Die KlassengroBen betragen 7Cj = .40. 
7t 2 = -30, 71 3 = .30. In welche Klasse 
gehort eine Person mit diesem Pattern 
bei einer kriteriumsorientierten Zuord- 
nung, in welche Klasse bei einer norm- 
orientierten Zuordnung? 



Hier ist der MeBwert, also die Klassen- 
zugehorigkeit allein an den Itemantworten 
als Kriterium orientiert und unabhangig 
davon, welche MeBergebnisse andere Per- 
sonen erhalten haben. 
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Chi-Quadrat-Tabelle 



Anzahl der 
Freiheitsgrade 



95%-Niveau 99%-Niveau 





3.84 


6.63 


2 


5.99 


9.21 


3 


7.81 


11.34 


4 


9.49 


13.28 


5 


11.07 


15.09 


6 


12.59 


16.81 


7 


14.07 


18.48 


8 


15.51 


20.09 


9 


16.92 


21.67 


10 


18.31 


23.21 


11 


19.68 


24.73 


12 


21.03 


26.22 


13 


22.36 


27.69 


14 


23.68 


29.14 


15 


25.00 


30.58 


16 


26.30 


32.00 


17 


27.59 


33.41 


18 


28.87 


34.81 


19 


30.14 


36.19 


20 


31.41 


37.57 


21 


32.7 


38.9 


22 


33.9 


40.3 


23 


35.2 


41.6 


24 


36.4 


43.0 


25 


37.7 


44.3 


26 


38.9 


45.6 


27 


40.1 


47.0 


28 


41.3 


48.3 


29 


42.6 


49.6 


30 


43.8 


50.9 


40 


55.8 


63.7 


50 


67.5 


76.2 


60 


79.1 


88.4 


70 


90.5 


100.4 


80 


101.9 


112.3 


90 


113.1 


124.1 


100 


124.3 


135.8 


110 


135.1 


146.7 


120 


146.2 


158.2 



140 


168.2 


181.1 


150 


179.2 


192.5 


160 


190.1 


203.8 


170 


201.0 


215.1 


180 


211.9 


226.4 


190 


222.8 


237.6 


200 


233.6 


248.8 


210 


244.4 


259.9 


220 


255.2 


271.0 


230 


266.0 


282.1 


240 


276.7 


293.2 


250 


287.5 


304.3 


260 


298.2 


315.3 


270 


308.9 


326.3 


280 


319.6 


337.3 


290 


330.3 


348.3 


300 


341.2 


359.2 


310 


351.6 


370.2 


320 


362.3 


381.1 


330 


372.9 


392.0 


340 


383.6 


402.9 


350 


394.2 


413.8 


360 


404.8 


424.7 


370 


415.4 


435.6 


380 


426.0 


446.4 


390 


436.6 


457.2 


400 


447.2 


468.1 


410 


457.8 


478.9 


420 


468.3 


489.7 


430 


478.9 


500.5 


440 


489.5 


511.3 


450 


500.0 


522.1 


460 


510.6 


532.8 


470 


521.1 


543.6 


480 


531.6 


554.4 


490 


542.2 


565.1 


500 


552.7 


575.9 


600 


657.6 


682.9 


700 


762.2 


789.4 


800 


866.4 


895.4 


900 


970.4 


1001.0 


1000 


1074.2 


1106.4 


1100 


1177.8 


1211.5 


1200 


1281.2 


1316.3 


1300 


1384.5 


1421.0 


1400 


1487.6 


1525.5 
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Notationstabelle: 

Lateinische Buchstaben: 

a Ladungszahlen im Modell der Fak- 

torenanalyse 

C Kontingenzkoeffizient 

c eine konstante, aber beliebige oder 

unbekannte GroBe 

D Differenzwert zwischen Vor- und 

Nachtest, oder Diskriminationsin- 
dex bei Klassenmodellen 

d Abkiirzung fur den Nenner in logi- 
stischen Funktionen 

E Fehlervariable in der MeBfehler- 

theorie 

e Eulersche Zahl 2.718.. (die Basis 

der natiirlichen Logarithmen), oder 
Auspragung einer Fehlervariable, 
oder erwartete Haufigkeiten in 
/ 2 -Tests 

F Faktorvaiiable im Modell der Fak- 

torenanalyse 

f wie ‘Frequenz’ fiir Haufigkeiten oder 

wie ‘Funktion’ als Funktionsname 

G Anzahl der Klassen 

0 Index fiir Personenklassen bei 
qualitativen Testmodellen 

h zweiter Laufindex fiir latente Klas- 

sen oder Anzahl der Kompenenten 
in Komponentenmodellen 

1 Funktionsname fiir die statistische 
Infomation, die die Daten in Bezug 
auf einen Modellparameter ent- 
halten 

i Index fiir die Items eines Tests 

j Index fiir die Items eines Tests 

k Anzahl der Items in einem Test 



L Funktionsname fiir die Likelihood- 

funktion 

m Anzahl der Schwellen bei ordinalen 

Daten, also Anzahl der Antwortka- 
tegorien minus 1 

N Anzahl der Personen in der Stich- 
probe 

n (im Allgemeinen mit Index) be- 

zeichnet eine Personenhaufigkeit 

o beobachtete (observed) Haufigkeit 

in einem % 2 -Tests 

p Walirsehcinliehkeit eines Ereignis- 

ses (p wie probabilitas oder proba- 
bility) 

Q Bezeichnung fiir eine Matrix von 

praexperimentell festgelegten Ge- 
wichten, oder Bezeichnung fiir ein 
AbweichungsmaB fiir Items oder 
Personen (Q-Index) 

q praexperimentell festgelegte Ge- 

wichte, oder S chwellenwahr schein- 
lichkeiten 

r Summenscore einer Person, oder 

Funktionsname fiir den Korrela- 
tionskoeffizienten 

s Laufindex fiir die Antwortkate- 

gorien, oder Bezeichnung fiir die 
Standardabweichung einer Variable 

T wie ‘Treffsicherheif bezeichnet die 

mittlere Zuordnungswahrscheinlich- 
keit bei qualitativen Testmodellen 
oder Truescore- Variable in der 
MeBfehlertheorie 

t Index fiir die Zeitpunkte (bei Ver- 

anderungsmessung) oder Auspra- 
gung einer Truescore- Variable 

v Index fiir die Personen 

w Index fiir die Personen 
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Notationstabelle 



w Index fur die Personen 

X Antwortvariable oder Symbol fiir 

die MeBwerte im Vortest 

x Auspragungen einer Antwortvari- 

able 

Y Symbol fur die MeBwerte im Nach- 

test oder Variable, die als Validi- 
tatskriterium fungiert 

Z Werte einer standardisierten Varia- 

ble (Mittelwert =0 und Standard- 
abweichung =1) 

Griecliische Buchstaben: 

a (alpha) ein logistischer Parameter, 

der additiv zerlegt wird 

(3 (beta) ein (zweiter) Itemparameter 

(neben der Schwierigkeit, z.B. fiir 
die Trennscharfe oder fiir einen 
Lemeffekt) 

y (gamma) Funktionsname fiir die 

symmetrischen Grundfunktionen, 
oder Rate wall rse heiniiehkeit 

8 (delta) ein Distanz- oder Disper- 

sionsparameter bei Modellen fiir 
ordinale Daten, oder ein Verande- 
mngsparameter bei Modellen zur 
Veranderungsmessung 

e (epsilon) ein de-logarithmierter 

Schwierigkeitsparameter im Rasch- 
Modell 

r| (eta) Basisparameter bei linear- 

logistischen Modellen, oder die 
Wurzel aus dem Varianzanteil r| 2 

0 (theta) ein Personenparameter 

k (kappa) das UbereinstimmungsmaB 

Cohen’s kappa 



p (my) der Mittelwertsparameter in 

einer Normalverteilung, oder der 
Lokationsparameter in einer logi- 
stischen Verteilung fiir die Perso- 
nenscores 

£, (ksi) ein de-logarithmierter Perso- 

nenparameter im Rasch-Modell 

n (pi, klein) ein Wahrscheinlichkeits- 

parameter (mit dem O-l-Intervall als 
Wertebereich), der oft nur durch 
seine Indices zu identifizieren ist, 
oder die Zahl ‘Pi’ 

II (pi, groB) Produktzeichen 

p (rho) Dispersionsparameter der 

restringierten Scoreverteilung 

o (sigma, klein) ein (logistischer) 

Schwierigkeitsparameter, oder der 
Parameter fiir die Standardabwei- 
chung in einer Normalverteilung 

Z (sigma, groB) Summenzeichen 

x (tau) ein Schwellenparameter bei 

Modellen fiir ordinale Daten 

4> ein muliplikativer Parameter im 

niehrkategoricllcn Rasch-Modell 

X (chi) Symbol der Chiquadrat- 

Verteilung 

\j/ (psi) ein kumulierter Kategorien- 

Parameter bei Modellen fiir ordinale 
Daten 
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Mathematische Symbole, Funktionen und 

Abkiirzungen: 

| Bedingungsstrich (in der Wahr- 
scheinlichkeitsrechnung steht vor 
dem Strich ein Ereignis, hinter deni 
Strich die Bedingung, unter der die 
Wahrscheinlichkeit betrachtet wird) 

A Dach auf Modellparametern zur 
Kennzeichnung von Parameter- 
schatzungen 

e ist Element von (steht zwischen 
dem Element und der Menge, aus 
der das Element stammt) 

n die Zahl Pi (3.14..) 

d Symbol fiir die partielle Ableitung 
einer Funktion 

co unendlich 

X (sprich x quer) der Mittelwert der 
Variable x 

x_ einfach unterstrichene Buchstaben 
bezeichnen Vektoren 

x doppelt unterstrichene Buchstaben 
bezeichnen Matrizen 

CHI eine x 2 -verteilte PriifgroBe 

CL bedingte Likelihood (conditional) 

cLR bedingter (conditional) Likelihood- 
quotient (ratio) 

Cov die Kovarianz zwischen zwei Va- 
riablen 

df Freiheitsgrade (degrees of freedom) 

Erw Erwartungswert einer Variable 

ex p Funktionsbezeichnung fiir die Expo- 
nentialfunktion, exp(x)=e\ ddi. die 
Eulersche Zahl ‘hoch x, (das ist die 
Umkehrfunktion zum natiirlichen 
Logarithmus) 



KI Konfidenzintervall fiir einen ge- 
schatzten Parameter 

Korr die Korrelation zwischen zwei Vari- 
ablen 

log Funktionsbezeichnung fiir den na- 
tiirlichen (!) Logarithmus (iibli- 
cherweise: In) 

logit Funktionsbezeichnung: 
logit(p) = log(p/(l-p)) 

LR Likelihoodquotient (ratio) 

max der maximale Wert einer Menge 
von Zahlen 

mL marginale Likelihood 

ML Maximum Likelihood 

mLR marginaler Likelihoodquotient 
(ratio) 

Rel die Reliabilitat eines Tests oder 
einer MeBwertreihe 

p e p ReproduzierbarkeitsmaG 

Res Residuum 

UL unbedingte Likelihood 

Var die Varianz einer Variable oder 
einer MeBwertreihe 

Val die Validitat eines MeBwertes 
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Stichwortverzeichnis 



Stichwortverzeichnis 



A 



abhangige Variable 


18 


Absolutskala 


119, 249, 257 


abweichende Pattern 


382 


AIC 


328 


Analogie 


23, 56 


Andersen-Test 


342 


Angstbewaltigungsinventar 


50 


Anonymitat 


81 


Anti-Guttman-Pattern 


385 


Antwortfehlermodell 


109, 161 


Antwortformat 


61 


Antwortvariable 


83 


Aquidistanz 


105, 212 


Aquidistanzannahme 


89, 229 


Aquidistanzmodell 


213, 229, 242 


asymptotische Bedingungen 


333, 336 


Attributionsstil 


23, 42, 185, 
246 


Augenschein- V aliditat 


47 


Auswertungsobjektivitat 


38 


Auswertungsokonomie 


63 


Autokorrelation 


265 


Axiome der klassischen Test- 
theorie 


35 



B 



Bias 


305 


Basisparameter 


246, 279, 285 


Bayes-Schatzer 


307 


Bayes-Theorem 


156 


Bearbeitungshinweise 


81 


bedingte Likelihood 


327 


bedingte Likelihoodfunktion 


306 


bedingte ML-Methode 


300, 305 


bedingte Patternwahrscheinlich- 


131, 155, 173 


keit 




bedingte Wahrscheinlichkeit 


73, 131, 155 


bedingter Likelihoodquotienten- 


342 


test 




beobachteter Wert 


34 


BIC 


329 


binares Zufallsexperiment 


116 


Binoniialkoeffizient 


65, 116, 298 


Binomialmodell 


113, 117 


Binomialverteilung 


116 


bipolar 


67 


Birnbaum-Modell 


134, 364 



bit 


94 


bivariate Normalverteilung 


278 


Bodeneffekt 


96, 264 


bootstrap-Verfahren 


338 


boundary values 


318 


Briickenitem 


269, 287 



c 



CA1C 


329 


Ceilingeffekt 


264, 96 


Chi-quadrat Verteilung 


330 


Chi-quadrat Test 


331, 336, 393 


cML-Methode 


304, 306 


Codierung 


83 


Cohens Kappa 


85 


Computerunterstiitztes Testen 


82 


Cover-Story 


80 


Cronbach's alpha 


355 


D 


Datenaggregation 


5 ,97, 119, 158 
337 


Datenstruktur 


27, 94, 259, 
270, 285 


Deckeneffekt 


96, 264 


dekumulierte Parameter 


203 


delogarithmierte Itemparameter 


132, 207, 281 


Denkoperation 


245, 256, 280 


depersonalisierte Frage 


71 


deterministisches Testmodell 


107, 140, 151 


dichotome Antwortvariable 


88 


dichotome Itemantwort 


94 


Dichotomisierung 


88,94 


Differenzenskala 


126 


differenzieren 


299 


Differenzwert 


260, 261 


direkte Frage 


71 


disjunkte Kategorie 


63 


diskriminante V aliditat 


394 


Diskriminationsindex 


373 


Dispersion 


214, 227, 229 


Dispersionsmodell 


216, 229, 242, 
243 


Dispersionsparameter 


147 


Distanzparameter 


212 


Distraktor 


64, 88 


doppelte Monotonie 


137, 163 


Dominanzrelation 


139 


Dreiecksmatrix 


107 


dreifaktorielles Rasch-Modell 


270, 286 
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dreiparametriges Modell 


135 


Durchflihrungsobjektivitat 


37 


Durchschaubarkeit 


47 


dynaniisches Testmodell 


259, 277 


E 


E-Schritt 


311 


Eigenselektion 


81 


Einfachheitskriterium 


112, 217, 220, 
324 


eingipflig verteilte 
Antwortvariable 


222, 225 


Einstellungstests 


50 


EM-Algorithmus 


309 


Empirie 


24 


erklaren 


28, 31 


erschopfende Statistik 


119, 129 


erwartete Patternhaufigkeit 


335 


Erwartungswert 


35, 113, 214 


Erwartungswert der Antwort- 
vaiiable 


214 


Erwartungswertprofil 


220, 226, 239 


essentiell tau-aquivalente 
Messung 


113 


Eta-quadrat 


391 


ethisches Problem 


80 


Etikettiemng einer Ratingskala 


69 


Exhaustive Kategorien 


63 


Experiment 


18, 73 


Exponentialfunktion 


123 


Externe Validitat 


21, 33, 38, 78, 
390 


Extraversionsbeispiel 


238 


F 


Faktorenanalyse 


254, 376 


faktorielle Validitat 


394 


Faktorladung 


254, 377 


Fehlervariable 


351 


Fehlervarianz 


352 


Filterfrage 


74 


Fixierung 


159, 313 


Flooreffekt 


364 


forced choice 


63 


formales Modell 


24 


freie Antwort 


61 


freie Parameter 


25 


freies Antwortformat 


61 



G 



gebundenes Anwortformat 


63 


Generalisierbarkeit 


57, 38 


geometrisches Mittel 


326 


geordnete Kategorien 


89 


geordnete Klassen 


150, 162, 182 


geordnete Schwellen 


225 


Gerade als Itemfunktion 


103, 112 


Gleichsetzung von Parameter 


159, 313 


Gleichverteilung 


96, 106 


globale Veranderung 


270, 290 


globales Lemen 


281, 286 


Glockenkurve 


25 


graphischer Modelltest 


342 


Glitekriterium 


31, 349 


Guttman-Pattern 


107, 382 


Guttman-Skala 


104, 150 


H 


Halbtest-Methode 


355 


Haupteffektmodell 


270 


Hierarchie von Modellen 


234 


hierarchische Wissensstruktur 


152 


Homogenitat des Items 


56, 272, 289, 
400 


Hybrid-Modell 


243 


Hyperbelcosinus-Modell 

I 

Indirekte Frage 


146 


71 


Informationsfunktion 


307, 321 


integer scoring 


89 


Intelligenzstrukturtest 


65 


Interessensfragebogen 


53 


interne Konsistenz 


355 


interne Validitat 


33, 38, 370 


Interpretationsobj ektivitat 


38 


Intervallskala 


19, 89, 206 


intervallskalierter MeBwert 


106 


Intraklassenkorrelation 


87 


inzidentelle Parameter 


130, 167 


ipsativer MeBwert 


185 


Irrtumswahrscheinlichkeit 


109, 160 


IRT 


136 


Item 


18, 60 


Itemcharakteristik 


100 


Itemdiskrimination 


214, 363 


Itemfit-MaB 


366 
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Itemfunktion 


100, 149, 191, 




196, 214, 364 


Itemhomogenitat 


104, 155, 272, 




340, 345, 378 


Itemkomponente 


245 


Itemleichtigkeit 


95 


Itemprofil 


156, 171, 182, 




226 


Itemresiduum 


371 


Item-Response Theorie 


136 


Itemschwierigkeit 


101 


Itemscore 


95 


itemspezifische Veranderang 


272, 279 


Items tamm 


60 


Itemstichprobe 


57 


Item-Test- Korrelation 


364 


Itemuniversum 


56, 38 


iteratives Verfahren 


300 


K 




kategoriale Personenvariable 


43, 155, 165, 




172, 178 


kategoriales Validitatskriterium 


392 


Kategorienfunktion 


196 


Kategorienschema 


84 


Kategorisierung 


83 


KFT 


99 


Klasseneinteilung 


150 


Klassenmodell fur ordinale Daten 


224 


klassenspezifische 


255 


Itemkomponente 




klassenspezifisches Modell filr 


232 


Ratingdaten 




klassische Testtheorie 


6, 11, 12, 113 


Kodierung 


66, 88 


kognitiver Fahigkeitstest 


99 


komponentenspezifischer 


252 


Itemparameter 




komponentenspezifischer 


252 


Personenparameter 




Konfidenzintervall 


358 


kongenerische Messung 


114, 377 


konkurrente Validitat 


393 


konsistente Schatzer 


304, 306 


Konstrakt 


29 


Konstruktvaliditat 


245, 394 


Kontingenz 


28 


Kontingenzkoeffizient 


393 


kontinuierliche Itemfunktion 


101 


konvergente Validitat 


373 


konvergieren 


300, 302, 311 


Korrelation 


32 



Kovarianz 


32 


Kreuzvalidierung 


373 


kriteriumsorientiertes Testen 


40, 401 


kumulative Normal verteilung 


120 


kumulierte Schwellenparameter 


202, 224, 237, 
249 


L 


latent-class Modell 


155 


latente Klasse 


150 


latente Variable 


29, 42, 98, 100 


Leistungstest 


44 


Lemfahigkeit 


278 


Lemtest 


277 


Likelihood 


117 


Likelihoodfunktion 


117, 128, 135, 
158, 192, 205, 
294, 298 


Likelihoodquotiententest 


330 


Likert-Skalierung 


52 


lineare Abhangigkeit 


248, 286 


lineare Itemfunktion 
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